VeriGate:驗證閘道式步級監督改進GRPO推理模型訓練
研究論文提出VeriGate,這是一種驗證閘道式的步級監督方法,旨在解決Group Relative Policy Optimization (GRPO)在訓練推理模型時的局限性。GRPO是一種基於驗證器的獎勵的有效方法,但其監督稀疏:當所有採樣軌跡獲得相同驗證器獎勵時,組相對優勢降為零,導致學習停滯。此外,僅基於結果的獎勵缺乏步級信用分配,限制了探索並難以學習穩健推理。VeriGate通過三個設計選擇應對這些問題:首先,在驗證器獎勵能誘導有意義偏好時保持驗證器主導,否則使用過程監督;其次,將過程獎勵模型的分數轉換為未來累積獎勵,以分配延續感知的信用;第三,將這些獎勵轉化為組歸一化的標記層級優勢,恢復有資訊梯度並實現細粒度信用分配,同時比優化聚合過程獎勵模型分數的方法更不易遭受獎勵駭客。實驗結果顯示,在MATH數據集上訓練1.5B和7B的Qwen2.5-Instruct模型,並在六個推理基準上評估,VeriGate平均準確率分別提升約20%和12%,大幅減少零梯度失敗,降低獎勵駭客行為,相對於僅基於結果的GRPO和過程獎勵模型作為結果的基線,推理質量得到顯著改善。
來源
來源:網頁來源