LongDS-Bench:長時間代理數據分析失敗研究
研究論文提出 LongDS 基準,旨在解決現有數據分析基準未能測試長時間、多輪交互的問題。現實世界的數據分析本質上是迭代過程,但現有基準多評估孤立或短期任務。LongDS 包含 68 個來自真實 Kaggle 筆記本的任務,橫跨地球科學、商業和教育等六個領域,平均依賴跨度為 11.3 輪,並設計了狀態演變模式如反事實擾動、回滾和多狀態組合。論文評估了五個 state-of-the-art 模型,發現最佳模型僅達到 48.45% 的平均準確率,且性能從早期到後期輪次下降近 47 點,長時間錯誤佔失敗的 52% 到 69%。進一步分析顯示,額外的代理步驟不一定改善性能,關鍵瓶頸在於維持正確的分析狀態,而非增加交互預算。研究團隊將在 GitHub 上發布代碼和數據,以支持可靠的長時間代理數據分析研究。
來源
來源:網頁來源