深度研究代理何處出錯?代理軌跡中的片段級錯誤定位
研究論文提出,深度研究代理通過長軌跡的搜索、工具使用、證據檢查和答案合成來解決任務。現有基於最終答案的評估僅顯示代理是否成功,但無法識別軌跡中哪些部分使答案不可靠。這項研究收集了來自兩個代理框架、三個骨幹模型和三個基準的 2,790 個真實軌跡,將原始日誌轉換為語義片段,並通過 LLM 輔助的專家審查標註有害錯誤片段。基於這些標註,研究人員建立了 TELBench,一個包含 1,000 個實例的基準,用於識別錯誤片段與正常探索、失敗搜索、暫時假設和無害噪音的區別。此外,他們提出了 DRIFT,一個以聲明為中心的審計框架,跟踪代理聲明、檢查其在軌跡證據中的支持情況,並標記影響答案路徑的無支持或衝突聲明。實驗結果顯示,DRIFT 在不同模型家族和審計框架中,將片段級錯誤定位和首次錯誤準確率提高了多達 30 個百分點。這項工作為深度研究代理的可靠性提供了過程級視角,有助於提升 AI 代理的發展。
來源:Hugging Face / 論文來源