返回事件流

CAST:針對 GRPO 的自教學強化學習方法

研究論文提出 CAST 方法,探討如何強化學習與可驗證獎勵(RLVR)中改進大型語言模型的推理能力。論文指出,現有群組相對策略優化(GRPO)方法面臨結果級獎勵提供稀疏監督的問題,且在某些情況下群組相對優勢會消失。為解決這些挑戰,CAST 作為答案自由的自蒸餾方法,保留 GRPO 目標,但引入停止梯度的自教師來塑造標記級優勢。相較於先前方法,CAST 不需要基於參考解答的教師評分,並應用雙向局部優勢符號反轉,使得正確和錯誤軌跡中的標記能獲得適當的優勢信號。對於零方差的全對或全錯群組,CAST 分配有界符號約束的基礎優勢,確保這些群組仍能貢獻驗證器簽名的標記反饋。實驗在數學推理任務中顯示,CAST 能提升 RLVR 訓練效果,同時保持輕量級和基於驗證器的軌跡級目標。

來源

來源:網頁來源