研究06/03 24:47

TASTE 方法提升 AI 代理基準測試的覆蓋與難度

研究論文提出 TASTE 方法，旨在解決現有 AI 代理基準測試逐漸飽和的問題。隨著代理能力增強，如 τ^2-Bench 這類基準變得不再足夠，但構建新任務既複雜又昂貴。TASTE 通過逆轉任務構建過程，自動生成具有更廣泛工具使用覆蓋範圍和更高難度的任務。方法利用自適應對比 n-gram 模型，基於 LLM 判斷的有效性信號採樣工具序列，再通過聚類選擇代表性序列，實例化為完整任務，並經過迭代難度進化優化。基於此，研究構建了 τ^c-Bench，擴展了 τ^2-Bench 的三個領域。評估結果顯示，多個模型在 τ^2-Bench 上接近飽和，但在新任務上性能顯著下降，例如 Gemini-3-Flash 的分數從 0.82-0.94 降至 0.28-0.61。此外，生成的任務使獨特工具組合數量翻倍以上，表明高分可能反映基準飽和而非穩健的問題解決能力。TASTE 為未來 AI 代理的持續可擴展評估提供了自動化解決方案。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks