返回事件流

自我演化LLM代理的更新能力與受益能力分析

在人工智慧領域,大型語言模型(LLM)代理正日益被部署為系統,這些系統建立在可編輯的外部框架上,包括提示、技能、記憶和工具,它們塑造任務執行而不改變模型參數。自我演化則是通過從執行證據中更新這些框架來適應代理。然而,目前尚不清楚模型在任務解決中的基礎能力是否預測其在框架自我演化中的能力。研究論文提出,分析了兩種框架自我演化能力:一是框架更新能力,即從執行證據中產生有用持久框架更新的能力;二是框架受益能力,即從更新的框架中受益的能力。分析揭示了兩個發現:首先,框架更新能力在基礎能力上是平的,不同能力層級的模型產生的框架更新導致驚人相似的增益;即使是Qwen3.5-9B的更新也產生與Claude Opus 4.6相當的增益。其次,框架受益能力在基礎能力上是非單調的:弱層級模型受益較少,中層級模型受益最多,強層級模型受益少於中層級。研究追蹤到弱層級的低增益歸因於兩種失敗模式:弱層級模型可能無法啟動相關框架工件,或啟動後無法忠實遵循。這些發現建議將能力預算投資於任務解決代理而非演化器,並在代理訓練中針對框架調用和長期指令遵循。論文原始代碼已公開於GitHub。

來源

來源:Hugging Face / 論文來源