返回事件流

TASTE 方法提升 AI 代理基準測試的覆蓋與難度

研究論文提出 TASTE 方法,旨在解決現有 AI 代理基準測試逐漸飽和的問題。隨著代理能力增強,如 τ^2-Bench 這類基準變得不再足夠,但構建新任務既複雜又昂貴。TASTE 通過逆轉任務構建過程,自動生成具有更廣泛工具使用覆蓋範圍和更高難度的任務。方法利用自適應對比 n-gram 模型,基於 LLM 判斷的有效性信號採樣工具序列,再通過聚類選擇代表性序列,實例化為完整任務,並經過迭代難度進化優化。基於此,研究構建了 τ^c-Bench,擴展了 τ^2-Bench 的三個領域。評估結果顯示,多個模型在 τ^2-Bench 上接近飽和,但在新任務上性能顯著下降,例如 Gemini-3-Flash 的分數從 0.82-0.94 降至 0.28-0.61。此外,生成的任務使獨特工具組合數量翻倍以上,表明高分可能反映基準飽和而非穩健的問題解決能力。TASTE 為未來 AI 代理的持續可擴展評估提供了自動化解決方案。

來源

來源:Hugging Face / 論文來源