EvoTrainer:共同進化LLM策略與訓練工具的自主體強化學習
根據 arXiv 上發布的研究論文,研究團隊提出 EvoTrainer,這是一個自主訓練框架,用於共同進化大型語言模型(LLM)的策略與訓練工具。論文指出,傳統自主 LLM 訓練常被視為食譜搜索,導致訓練工具靜態不變,這在體化強化學習(agentic RL)中尤其明顯,因為瓶頸變化和單一標量獎勵會掩蓋多種失敗模式。EvoTrainer 透過實證反饋解決此問題:它診斷推出層級證據、修正診斷工具、回測干預措施,並積累可重用技能。論文評估 EvoTrainer 在數學推理、競爭性編程代碼生成和倉庫級軟件工程等任務上,結果顯示在相同數據、代碼庫和評估協議下,EvoTrainer 匹配或超越了人類工程的強化學習參考方法,尤其在長視野體化軟件工程任務上獲得最大增益。軌跡分析進一步揭示,保留的策略在不同領域有差異,進化診斷防止無效高分分支被推廣,而可重用技能塑造了後續搜索過程。論文最後強調,自主 LLM 強化學習應從食譜搜索轉向策略和訓練工具的共同進化。
來源
來源:網頁來源