返回事件流

交接債務:當編程代理接管中斷任務時的重新發現成本

研究論文提出,編程代理的基準測試通常評估單一代理解決儲存庫問題的能力,但現實中的軟體工作更為複雜,任務常被中斷、重新分配、審查和從前一個代理或工程師留下的部分狀態恢復。為研究這一缺失面向,論文引入了「交接債務」的概念,指當前任的工作不透明或不完整時,後繼代理所面臨的重新發現成本。研究透過接管協議,在確定的交接點中斷編程代理,凍結儲存庫,並在四種交接視圖下評估後繼代理:僅儲存庫狀態、原始追蹤、摘要筆記和結構化筆記。在75個源任務中,協議生成了181個交接點任務,每個後繼模型運行724次接管。跨三個後繼模型,上下文交接相較於僅儲存庫接管,中位代理事件減少20-59%,累積提示詞標記減少42-63%。解決率效應較小且依賴模型,但效率增益一致。這些發現表明,編程代理評估不僅應報告任務是否解決,還應報告另一個代理恢復工作的成本。

來源

來源:網頁來源