研究06/01 12:07

MAVEN：提升代理工具調用的泛化能力

研究論文提出 MAVEN（模組化代理驗證與執行網路），這是一個輕量級符號推理支架，專門用於改善大型語言模型在代理工具調用環境中的泛化能力。論文探討了當前模型在組合推理策略、保留中間狀態和跨域協調工具方面的挑戰，指出這些能力尚未被充分探索。MAVEN 通過結構化分解、自適應工具編排和中間驗證來應對這些問題，旨在增強推理過程的可靠性。研究評估了 MAVEN 在多個工具調用基準測試上的表現，包括 BFCL v3、TauBench、Tau2Bench、AceBench，並引入了 MAVEN-Bench 壓力測試基準，專注於多步數學和物理推理與對抗性任務組合。結果顯示，在 MAVEN-Bench 上，MAVEN 將基礎模型 GPT-OSS-120b 的準確率從 48% 提升至 71%，無需額外訓練。此外，MAVEN 在使用開源權重骨幹的情況下，保持與前沿專有基準的競爭力，估計成本比率約為專有模型的十分之一，這表明以驗證為中心的輕量級支架可以顯著增強組合推理能力，並為代理的過程感知評估提供新方向。

來源

來源：網頁來源

網頁來源MAVEN: Improving Generalization in Agentic Tool Calling