研究06/03 24:13

研究：屏蔽過時觀察對搜索代理的效果與機制

研究論文提出，針對長時間運行的搜索代理，它們在多次工具呼叫中會累積大量檢索內容，因此管理上下文預算變得至關重要。其中，一種簡單的干預措施是在軌跡進行時，將陳舊的觀察結果從上下文中屏蔽。然而，此方法何時有效以及為何有效仍不清楚。論文透過對不同參數規模的模型骨幹及三種檢索器進行系統性掃描，研究觀察屏蔽的效果。研究發現，屏蔽帶來的準確性提升與模型在無上下文管理時的準確性之間，呈現不對稱的倒U形關係：在弱檢索器下效果持平，當強檢索器與中等容量模型搭配時達到峰值，而在模型能力飽和時則急劇下降。這一模式反映了檢索器召回率與模型隱式過濾能力之間的交互作用。從機制上看，屏蔽實現了一種「代幣換輪次」的權衡：它移除了模型已不太關注的觀察，這些觀察通常是代理很少重新查閱的內容。增加的輪次有助於將失敗轉化為成功，但當屏蔽移除了模型本可使用的證據時則會失效。因此，論文將上下文管理重新定義為一種依賴於具體情境的干預，並為分析代理深度搜索中的上下文使用提供了整體視角。

來源

來源：網頁來源

網頁來源Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism