PANDO:透過線上技能蒸餾實現高效多模態 AI 代理
研究論文提出 PANDO 框架,旨在解決多模態網絡代理在推理時計算成本高的問題。論文分析了 VisualWebArena 的軌跡,識別出重複動作循環、隱藏的發現成本和低提示緩存重用等低效來源。PANDO 採用單輪在線技能蒸餾方法,透過維護結構化技能庫,結合進度反思、基於信心的技能降級、層次路由、視覺壓縮和緩存感知提示等技術來提升效率。在 VisualWebArena 的 910 個任務測試中,PANDO 達到 58.3% 的成功率,優於現有方法 SGV 和 WALT,同時減少 token 使用量達 58% 至 61%。消融研究表明,規則和例程是成功的主要貢獻因素,而路由、壓縮和緩存感知提示則將大型技能庫轉化為更低的邊際 token 成本。此外,論文還提出三個軌跡級效率指標,包括動作重複率、步驟開銷比和提示緩存利用率,以量化效率表現。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源PANDO: Efficient Multimodal AI Agents via Online Skill Distillation