返回事件流

ESPO:早期停止近端策略優化

根據 HuggingFace 上發布的研究論文,論文探討了在大型語言模型進行強化學習時,標準近端策略優化(PPO)演算法的效率問題。當模型在生成軌跡早期犯錯時,PPO 強制繼續生成直到最大時間範圍,導致計算資源浪費於未獲得正回饋的 token,並使優勢估計受到失敗後雜訊的影響。為此,論文提出 ESPO(早期停止近端策略優化)方法,通過即時偵測軌跡失敗並提前終止 rollouts。具體而言,ESPO 在每個生成步驟計算一個代理遺憾,當平滑累積遺憾顯著超過估計值時,即終止軌跡。截斷的軌跡被視為具有終端回饋的吸收失敗狀態,將負的時間差異(TD)錯誤集中在偵測到的失敗步驟附近,無需額外的回饋模型或人工標註。實驗結果顯示,在用於數學推理的 DeepSeek-R1-Distill-Qwen-7B 模型上,ESPO 在 AIME 2024(46.28% vs. 45.25%)、AMC 2023(85.83% vs. 82.94%)和 MATH-500(87.42% vs. 85.43%)基準測試中超越了 PPO,同時累積節省了超過 20% 的 rollout token。這表明 ESPO 能有效提升強化學習訓練大型語言模型的效率和效能。

來源

來源:Hugging Face / 論文來源