研究06/04 24:42

EvoTrainer：共同進化LLM策略與訓練工具的自主體強化學習

根據 arXiv 上發布的研究論文，研究團隊提出 EvoTrainer，這是一個自主訓練框架，用於共同進化大型語言模型（LLM）的策略與訓練工具。論文指出，傳統自主 LLM 訓練常被視為食譜搜索，導致訓練工具靜態不變，這在體化強化學習（agentic RL）中尤其明顯，因為瓶頸變化和單一標量獎勵會掩蓋多種失敗模式。EvoTrainer 透過實證反饋解決此問題：它診斷推出層級證據、修正診斷工具、回測干預措施，並積累可重用技能。論文評估 EvoTrainer 在數學推理、競爭性編程代碼生成和倉庫級軟件工程等任務上，結果顯示在相同數據、代碼庫和評估協議下，EvoTrainer 匹配或超越了人類工程的強化學習參考方法，尤其在長視野體化軟件工程任務上獲得最大增益。軌跡分析進一步揭示，保留的策略在不同領域有差異，進化診斷防止無效高分分支被推廣，而可重用技能塑造了後續搜索過程。論文最後強調，自主 LLM 強化學習應從食譜搜索轉向策略和訓練工具的共同進化。

來源

來源：網頁來源

網頁來源EvoTrainer: Co-Evolving LLM Policies and Training Harnesses for Autonomous Agentic Reinforcement Learning