研究06/02 12:07

CAST：針對 GRPO 的自教學強化學習方法

研究論文提出 CAST 方法，探討如何強化學習與可驗證獎勵（RLVR）中改進大型語言模型的推理能力。論文指出，現有群組相對策略優化（GRPO）方法面臨結果級獎勵提供稀疏監督的問題，且在某些情況下群組相對優勢會消失。為解決這些挑戰，CAST 作為答案自由的自蒸餾方法，保留 GRPO 目標，但引入停止梯度的自教師來塑造標記級優勢。相較於先前方法，CAST 不需要基於參考解答的教師評分，並應用雙向局部優勢符號反轉，使得正確和錯誤軌跡中的標記能獲得適當的優勢信號。對於零方差的全對或全錯群組，CAST 分配有界符號約束的基礎優勢，確保這些群組仍能貢獻驗證器簽名的標記反饋。實驗在數學推理任務中顯示，CAST 能提升 RLVR 訓練效果，同時保持輕量級和基於驗證器的軌跡級目標。

來源

來源：網頁來源

網頁來源CAST: Non-Privileged Clipped Asymmetric Self-Teaching with Advantage Flipping for GRPO