MAVEN:提升代理工具調用的泛化能力
研究論文提出 MAVEN(模組化代理驗證與執行網路),這是一個輕量級符號推理支架,專門用於改善大型語言模型在代理工具調用環境中的泛化能力。論文探討了當前模型在組合推理策略、保留中間狀態和跨域協調工具方面的挑戰,指出這些能力尚未被充分探索。MAVEN 通過結構化分解、自適應工具編排和中間驗證來應對這些問題,旨在增強推理過程的可靠性。研究評估了 MAVEN 在多個工具調用基準測試上的表現,包括 BFCL v3、TauBench、Tau2Bench、AceBench,並引入了 MAVEN-Bench 壓力測試基準,專注於多步數學和物理推理與對抗性任務組合。結果顯示,在 MAVEN-Bench 上,MAVEN 將基礎模型 GPT-OSS-120b 的準確率從 48% 提升至 71%,無需額外訓練。此外,MAVEN 在使用開源權重骨幹的情況下,保持與前沿專有基準的競爭力,估計成本比率約為專有模型的十分之一,這表明以驗證為中心的輕量級支架可以顯著增強組合推理能力,並為代理的過程感知評估提供新方向。
來源
來源:網頁來源