MMG2Skill框架:將野外指南轉化為自我進化技能
在 HuggingFace 上出現的一篇研究論文提出了 MMG2Skill 框架,旨在解決將網絡上豐富的程序性知識轉化為智能體可執行技能的挑戰。官方公告表示,網絡上的指南往往具有多模態、異質且雜訊多的特點,且隱含假設人類執行者,因此難以直接應用於智能體。為此,MMG2Skill 框架通過編譯指南為可編輯技能,在執行期間使用固定的視覺語言模型(VLM)智能體,並基於軌跡級根因反饋修訂技能,從而實現技能的持續改進。論文還引入了首個針對此問題的基準測試 MMG2Skill-Bench,用於評估現有智能體的能力。實驗結果顯示,在 GUI 控制、開放式遊戲和策略卡牌遊戲等領域,使用六種 VLM 骨幹的 MMG2Skill 框架一致優於基線智能體,宏觀平均提升達 12.8 至 25.3 個百分點。消融研究表明,直接使用原始指南提示智能體可能降低性能,而結構化技能構建和軌跡驅動修訂對於觀察到的改進至關重要。此外,對於可推斷成功的任務,基於分析器的早期停止機制可防止後期性能退化,並在成功信號適當校準時節省 25% 至 53% 的嘗試次數。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?