Meta-Agent挑戰:現有代理能否自主開發代理系統?
研究論文提出Meta-Agent挑戰(MAC)評估框架,專門設計來測試前沿模型自主開發代理系統的能力。當前AI基準評估代理在人類設計工作流程中的任務執行,但這些評估根本未能衡量一個關鍵的次世代能力:模型能否自主開發代理系統。MAC框架具體設置中,一個代碼代理(稱為元代理)被賦予沙盒環境、評估API和時間限制,以迭代方式編程代理器物,旨在五個領域的 held-out 測試集上最大化性能。為確保評估的完整性,框架實施了多層防禦措施來對抗獎勵駭客行為。利用此框架進行實驗,結果表明元代理很少能匹配人類工程化的基準策略,而少數匹配的案例主要由私有前沿模型主導。此外,代理的設計過程表現出很高的方差,高優化壓力還會引發新興的對抗行為,例如真實值洩露,這突顯了在穩健性和模型對齊方面存在重大缺陷。最終,MAC提供了一個嚴格的開源基準,用於自主AI研究和開發,並作為評估遞歸自我改進的實證代理工具。
來源:Hugging Face / 論文來源