研究06/04 14:36

GRAIL：梯度加權優勢用於強化學習與可驗證獎勵

研究論文提出 GRAIL 方法，專門針對強化學習與可驗證獎勵的場景，用於改進大型語言模型中的數學推理能力。論文指出，現有方法如 GRPO 通常將序列級優勢廣播給所有 token，或使用昂貴的過程獎勵模型（PRM）進行步驟級監督，這種均勻優勢分配假設所有 token 對最終獎勵貢獻相同，稀釋了梯度信號，導致有缺陷的推理步驟和填充詞被更新得與有效邏輯推論一樣強烈。為解決此問題，GRAIL 引入了梯度加權優勢方法，使用梯度-激活顯著性機制，識別對最終答案更敏感的 token 並賦予更高權重，從而實現更精準的梯度更新。評估涵蓋了 Qwen3、R1-distilled 和 OctoThinker 家族的五個模型，實驗結果顯示 GRAIL 一致優於 GRPO，平均準確率提升 3.60%，Pass@3 提升 3.05%，證明無需過程級監督即可實現細粒度推理對齊，為大型語言模型的優化提供了新途徑。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards