研究06/02 24:12

SAAS：用於代理搜索中過度搜索抑制的自覺強化學習

研究論文提出SAAS框架，專門針對大型語言模型在代理搜索系統中遇到的過度搜索問題。代理搜索系統雖然能幫助LLMs通過迭代推理和外部搜索解決複雜多跳問題，但實踐中常因代理無法識別自身知識邊界而盲目觸發搜索，導致不必要的推理延遲和計算成本。SAAS作為一個新型強化學習框架，旨在培養動態自覺性以精確調節搜索行為，而不損害準確性。論文探討SAAS包含三個關鍵組件：首先，搜索邊界建模機制，通過對比搜索禁用和搜索啟用的情況來識別搜索範圍；其次，邊界感知獎勵模組，將自覺性轉化為軌跡級別的懲罰，抑制冗餘搜索；最後，階段優化策略，利用順序課程優先推理而非搜索正則化，避免獎勵黑客。廣泛實驗顯示，SAAS能顯著減少過度搜索，同時保持模型準確性。相關代碼已匿名發布於GitHub，供研究社群參考。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search