返回事件流

LongDS-Bench:長時間序列代理數據分析失敗研究

研究論文提出 LongDS 基準測試,旨在評估長時間序列多輪數據分析代理的能力。該基準包含 68 個任務,源自真實的 Kaggle 筆記本,涵蓋地質科學、商業和教育等六個領域,平均依賴跨度為 11.3 輪。任務設計圍繞狀態演化模式,例如反事實擾動、回滾和多狀態組合。評估五個先進模型後發現,最佳模型的平均準確率僅為 48.45%,從早期到後期輪次,性能下降近 47 分,長時間序列錯誤佔總失敗的 52% 至 69%。進一步分析指出,增加代理步數不一定提升性能,關鍵瓶頸在於維持正確的分析狀態,而非增加互動預算。論文將發布代碼和數據,以支持可靠長時間序列代理數據分析的研究。

來源

來源:Hugging Face / 論文來源