研究05/31 17:53

PANDO：透過線上技能蒸餾實現高效多模態 AI 代理

研究論文提出 PANDO 框架，旨在解決多模態網絡代理在推理時計算成本高的問題。論文分析了 VisualWebArena 的軌跡，識別出重複動作循環、隱藏的發現成本和低提示緩存重用等低效來源。PANDO 採用單輪在線技能蒸餾方法，透過維護結構化技能庫，結合進度反思、基於信心的技能降級、層次路由、視覺壓縮和緩存感知提示等技術來提升效率。在 VisualWebArena 的 910 個任務測試中，PANDO 達到 58.3% 的成功率，優於現有方法 SGV 和 WALT，同時減少 token 使用量達 58% 至 61%。消融研究表明，規則和例程是成功的主要貢獻因素，而路由、壓縮和緩存感知提示則將大型技能庫轉化為更低的邊際 token 成本。此外，論文還提出三個軌跡級效率指標，包括動作重複率、步驟開銷比和提示緩存利用率，以量化效率表現。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源PANDO: Efficient Multimodal AI Agents via Online Skill Distillation