研究06/02 24:10

RLHF的另一面：自監督改進獎勵模型的On-Policy反饋

研究論文探討了語言模型對齊中獎勵模型訓練的挑戰。傳統方法依賴人類標註或判斷模型的偏好數據，成本高昂且難以獲取多樣可靠的數據，尤其在策略進化超越靜態RM訓練時問題更為嚴重。為此，論文提出SAVE（Self-supervised reward model improvement via Value-Anchored On-policy feedback）框架，通過使用價值函數為on-policy RM訓練提供反饋。SAVE框架將獎勵分級的on-policy回應轉化為監督信號，使用特定提示的價值頭作為自適應錨點，計算RM優勢並過濾模糊樣本，通過對比目標更新RM。經驗評估在六個多樣基準上進行，包括不同任務和數據集，結果顯示SAVE在所有基準上均取得優異成績，並在GRPO、RLOO、GSPO等三種主流RL算法和不同策略骨幹模型上保持一致改進。這表明SAVE框架具有廣泛的適用性和有效性，為獎勵模型的自監督改進提供了可行方案。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement