研究06/03 24:06

弱評論者強化學習者：基於策略的評論蒸餾實現可擴展監督

研究論文提出，隨著大型語言模型能力持續增強，弱監督者往往難以為複雜輸出提供可靠的標籤、偏好或最終判斷，這限制了弱到強的泛化和可擴展監督的發展。為應對此挑戰，論文探討了一種更可行的弱監督形式：將弱模型用作評論者，而非標籤者或裁判。在這種被稱為「弱評論者強監督」的設置中，弱評論者無需解決任務或選擇正確答案，只需提供非誤導性的修正方向，以幫助強模型更有效地利用自身知識。論文首先展示，弱評論能在推理時改善凍結的強模型，且評論品質是影響改善程度的關鍵因素。隨後，研究提出漸進式策略評論蒸餾（OPCD）方法，通過過濾高品質評論並將評論引導的行為蒸餾到強模型中，採用適應性自教師信號來實現。在推理和對齊基準測試上的實驗表明，該方法能在訓練時期逐步改善強模型的性能，為使用弱監督實現可擴展監督提供了一條有效路徑。

來源

來源：網頁來源

網頁來源Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight