弱評論者強化學習者:基於策略的評論蒸餾實現可擴展監督
研究論文提出,隨著大型語言模型能力持續增強,弱監督者往往難以為複雜輸出提供可靠的標籤、偏好或最終判斷,這限制了弱到強的泛化和可擴展監督的發展。為應對此挑戰,論文探討了一種更可行的弱監督形式:將弱模型用作評論者,而非標籤者或裁判。在這種被稱為「弱評論者強監督」的設置中,弱評論者無需解決任務或選擇正確答案,只需提供非誤導性的修正方向,以幫助強模型更有效地利用自身知識。論文首先展示,弱評論能在推理時改善凍結的強模型,且評論品質是影響改善程度的關鍵因素。隨後,研究提出漸進式策略評論蒸餾(OPCD)方法,通過過濾高品質評論並將評論引導的行為蒸餾到強模型中,採用適應性自教師信號來實現。在推理和對齊基準測試上的實驗表明,該方法能在訓練時期逐步改善強模型的性能,為使用弱監督實現可擴展監督提供了一條有效路徑。
來源
來源:網頁來源