研究:屏蔽過時觀察對搜索代理的效果與機制
研究論文提出,針對長時間運行的搜索代理,它們在多次工具呼叫中會累積大量檢索內容,因此管理上下文預算變得至關重要。其中,一種簡單的干預措施是在軌跡進行時,將陳舊的觀察結果從上下文中屏蔽。然而,此方法何時有效以及為何有效仍不清楚。論文透過對不同參數規模的模型骨幹及三種檢索器進行系統性掃描,研究觀察屏蔽的效果。研究發現,屏蔽帶來的準確性提升與模型在無上下文管理時的準確性之間,呈現不對稱的倒U形關係:在弱檢索器下效果持平,當強檢索器與中等容量模型搭配時達到峰值,而在模型能力飽和時則急劇下降。這一模式反映了檢索器召回率與模型隱式過濾能力之間的交互作用。從機制上看,屏蔽實現了一種「代幣換輪次」的權衡:它移除了模型已不太關注的觀察,這些觀察通常是代理很少重新查閱的內容。增加的輪次有助於將失敗轉化為成功,但當屏蔽移除了模型本可使用的證據時則會失效。因此,論文將上下文管理重新定義為一種依賴於具體情境的干預,並為分析代理深度搜索中的上下文使用提供了整體視角。
來源
來源:網頁來源