TraceGraph:診斷與改進代理軌跡的共享決策景觀
研究論文提出 TraceGraph,一個基於圖形的框架,用於將多模型代理軌跡轉化為共享決策景觀。論文探討如何為每個任務建立圖形,覆蓋從池化軌跡中提取的可觀測行動-觀察狀態,然後疊加基於結果資訊的 productive cores 和 trap regions,並用三個事件(Access、Trap exposure 和 Repair)總結每個軌跡。應用於五個基準分割,TraceGraph 概括揭示了聚合分數隱藏的導航差異,顯示分割在獎勵避免陷阱或從中恢復方面有所不同。相同的 TraceGraph 景觀還激發了一個 trap-aware recovery pipeline 用於 SWE-bench:運行時檢測器在匹配歷史陷阱區域的狀態上觸發,然後從相同前綴評估輕量級繼續策略。在觸發的狀態上,最佳池化單因素策略將官方解決率從 40.4% 提高到 43.5%(在 per-provider fired 子集上),從 41.0% 提高到 44.8%(在 common-fired 實例上),並具有特定提供者的主動組件。總體而言,TraceGraph 提供了一個過程詞彙,用於詢問代理基準測試測試什麼、模型在共享景觀上的分歧,以及失敗區域如何指導下游改進。
來源
來源:網頁來源