SAAS:用於代理搜索中過度搜索抑制的自覺強化學習
研究論文提出SAAS框架,專門針對大型語言模型在代理搜索系統中遇到的過度搜索問題。代理搜索系統雖然能幫助LLMs通過迭代推理和外部搜索解決複雜多跳問題,但實踐中常因代理無法識別自身知識邊界而盲目觸發搜索,導致不必要的推理延遲和計算成本。SAAS作為一個新型強化學習框架,旨在培養動態自覺性以精確調節搜索行為,而不損害準確性。論文探討SAAS包含三個關鍵組件:首先,搜索邊界建模機制,通過對比搜索禁用和搜索啟用的情況來識別搜索範圍;其次,邊界感知獎勵模組,將自覺性轉化為軌跡級別的懲罰,抑制冗餘搜索;最後,階段優化策略,利用順序課程優先推理而非搜索正則化,避免獎勵黑客。廣泛實驗顯示,SAAS能顯著減少過度搜索,同時保持模型準確性。相關代碼已匿名發布於GitHub,供研究社群參考。
來源
來源:Hugging Face / 論文來源