研究06/02 10:36

ESPO：早期停止近端策略優化

根據 HuggingFace 上發布的研究論文，論文探討了在大型語言模型進行強化學習時，標準近端策略優化（PPO）演算法的效率問題。當模型在生成軌跡早期犯錯時，PPO 強制繼續生成直到最大時間範圍，導致計算資源浪費於未獲得正回饋的 token，並使優勢估計受到失敗後雜訊的影響。為此，論文提出 ESPO（早期停止近端策略優化）方法，通過即時偵測軌跡失敗並提前終止 rollouts。具體而言，ESPO 在每個生成步驟計算一個代理遺憾，當平滑累積遺憾顯著超過估計值時，即終止軌跡。截斷的軌跡被視為具有終端回饋的吸收失敗狀態，將負的時間差異（TD）錯誤集中在偵測到的失敗步驟附近，無需額外的回饋模型或人工標註。實驗結果顯示，在用於數學推理的 DeepSeek-R1-Distill-Qwen-7B 模型上，ESPO 在 AIME 2024（46.28% vs. 45.25%）、AMC 2023（85.83% vs. 82.94%）和 MATH-500（87.42% vs. 85.43%）基準測試中超越了 PPO，同時累積節省了超過 20% 的 rollout token。這表明 ESPO 能有效提升強化學習訓練大型語言模型的效率和效能。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源ESPO: Early-Stopping Proximal Policy Optimization