返回事件流

框架更新不等於框架效益:解耦LLM代理的自我演化能力

研究論文提出,大型語言模型(LLM)代理常圍繞可編輯的外部框架(如提示、技能、記憶和工具)構建,而框架自我演化則是透過執行證據來更新這些框架以適應代理。然而,模型在任務解決上的基礎能力是否能預測其在框架自我演化方面的能力,這一點仍不清楚。為此,論文分析了兩種能力:一是框架更新能力,即從執行證據中產生有用持久性框架更新的能力;二是框架受益能力,即在任務解決中受益於已更新框架的能力。研究發現,框架更新能力與基礎能力關係呈平緩態勢,不同能力層級的模型(例如Qwen3.5-9B與Claude Opus 4.6)所產生的框架更新,帶來的效益提升驚人地相似。另一方面,框架受益能力則呈現非單調關係:弱層級模型受益較少,中層級模型受益最多,而強層級模型的受益程度反而低於中層級。弱層級模型的低效益可歸因於兩種失敗模式:無法啟用相關框架產物,或雖啟用但未能忠實遵循。基於這些發現,論文建議在設計代理時,應將能力預算投入到任務解決代理本身,而非演化器,並在代理訓練中著重強化框架調用與長期指令遵循能力。相關原始碼已公開於GitHub。

來源

來源:網頁來源