返回事件流

GRAIL:梯度加權優勢用於強化學習與可驗證獎勵

研究論文提出 GRAIL 方法,專門針對強化學習與可驗證獎勵的場景,用於改進大型語言模型中的數學推理能力。論文指出,現有方法如 GRPO 通常將序列級優勢廣播給所有 token,或使用昂貴的過程獎勵模型(PRM)進行步驟級監督,這種均勻優勢分配假設所有 token 對最終獎勵貢獻相同,稀釋了梯度信號,導致有缺陷的推理步驟和填充詞被更新得與有效邏輯推論一樣強烈。為解決此問題,GRAIL 引入了梯度加權優勢方法,使用梯度-激活顯著性機制,識別對最終答案更敏感的 token 並賦予更高權重,從而實現更精準的梯度更新。評估涵蓋了 Qwen3、R1-distilled 和 OctoThinker 家族的五個模型,實驗結果顯示 GRAIL 一致優於 GRPO,平均準確率提升 3.60%,Pass@3 提升 3.05%,證明無需過程級監督即可實現細粒度推理對齊,為大型語言模型的優化提供了新途徑。

來源:Hugging Face / 論文來源