研究06/01 12:14

LongDS-Bench：長時間代理數據分析失敗研究

研究論文提出 LongDS 基準，旨在解決現有數據分析基準未能測試長時間、多輪交互的問題。現實世界的數據分析本質上是迭代過程，但現有基準多評估孤立或短期任務。LongDS 包含 68 個來自真實 Kaggle 筆記本的任務，橫跨地球科學、商業和教育等六個領域，平均依賴跨度為 11.3 輪，並設計了狀態演變模式如反事實擾動、回滾和多狀態組合。論文評估了五個 state-of-the-art 模型，發現最佳模型僅達到 48.45% 的平均準確率，且性能從早期到後期輪次下降近 47 點，長時間錯誤佔失敗的 52% 到 69%。進一步分析顯示，額外的代理步驟不一定改善性能，關鍵瓶頸在於維持正確的分析狀態，而非增加交互預算。研究團隊將在 GitHub 上發布代碼和數據，以支持可靠的長時間代理數據分析研究。

來源

來源：網頁來源

網頁來源LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis