研究06/01 10:06

LongDS-Bench：長時間序列代理數據分析失敗研究

研究論文提出 LongDS 基準測試，旨在評估長時間序列多輪數據分析代理的能力。該基準包含 68 個任務，源自真實的 Kaggle 筆記本，涵蓋地質科學、商業和教育等六個領域，平均依賴跨度為 11.3 輪。任務設計圍繞狀態演化模式，例如反事實擾動、回滾和多狀態組合。評估五個先進模型後發現，最佳模型的平均準確率僅為 48.45%，從早期到後期輪次，性能下降近 47 分，長時間序列錯誤佔總失敗的 52% 至 69%。進一步分析指出，增加代理步數不一定提升性能，關鍵瓶頸在於維持正確的分析狀態，而非增加互動預算。論文將發布代碼和數據，以支持可靠長時間序列代理數據分析的研究。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis