研究06/01 12:14

VeriGate：驗證閘道式步級監督改進GRPO推理模型訓練

研究論文提出VeriGate，這是一種驗證閘道式的步級監督方法，旨在解決Group Relative Policy Optimization (GRPO)在訓練推理模型時的局限性。GRPO是一種基於驗證器的獎勵的有效方法，但其監督稀疏：當所有採樣軌跡獲得相同驗證器獎勵時，組相對優勢降為零，導致學習停滯。此外，僅基於結果的獎勵缺乏步級信用分配，限制了探索並難以學習穩健推理。VeriGate通過三個設計選擇應對這些問題：首先，在驗證器獎勵能誘導有意義偏好時保持驗證器主導，否則使用過程監督；其次，將過程獎勵模型的分數轉換為未來累積獎勵，以分配延續感知的信用；第三，將這些獎勵轉化為組歸一化的標記層級優勢，恢復有資訊梯度並實現細粒度信用分配，同時比優化聚合過程獎勵模型分數的方法更不易遭受獎勵駭客。實驗結果顯示，在MATH數據集上訓練1.5B和7B的Qwen2.5-Instruct模型，並在六個推理基準上評估，VeriGate平均準確率分別提升約20%和12%，大幅減少零梯度失敗，降低獎勵駭客行為，相對於僅基於結果的GRPO和過程獎勵模型作為結果的基線，推理質量得到顯著改善。

來源

來源：網頁來源

網頁來源VeriGate: Verifier-Gated Step-Level Supervision for GRPO