RLHF的另一面:自監督改進獎勵模型的On-Policy反饋
研究論文探討了語言模型對齊中獎勵模型訓練的挑戰。傳統方法依賴人類標註或判斷模型的偏好數據,成本高昂且難以獲取多樣可靠的數據,尤其在策略進化超越靜態RM訓練時問題更為嚴重。為此,論文提出SAVE(Self-supervised reward model improvement via Value-Anchored On-policy feedback)框架,通過使用價值函數為on-policy RM訓練提供反饋。SAVE框架將獎勵分級的on-policy回應轉化為監督信號,使用特定提示的價值頭作為自適應錨點,計算RM優勢並過濾模糊樣本,通過對比目標更新RM。經驗評估在六個多樣基準上進行,包括不同任務和數據集,結果顯示SAVE在所有基準上均取得優異成績,並在GRPO、RLOO、GSPO等三種主流RL算法和不同策略骨幹模型上保持一致改進。這表明SAVE框架具有廣泛的適用性和有效性,為獎勵模型的自監督改進提供了可行方案。
來源
來源:Hugging Face / 論文來源