研究06/04 24:09

Harness-1：用於搜尋代理的強化學習與狀態外化架構

論文探討搜尋代理的訓練方式，指出傳統模型在決策搜尋的同時需管理大量內部狀態，這增加了強化學習的負擔。為此，研究提出 Harness-1，一個 20B 參數的搜尋代理，在狀態化搜尋架構中訓練。該架構由環境端維護工作記憶，包括候選池、重要性標記的策展集、證據連結、驗證記錄、壓縮去重觀察和預算感知上下文渲染，而策略專注於語義決策如搜尋內容、文件保留、驗證和停止時機。在八個涵蓋網頁、金融、專利和多跳問答的檢索基準測試中，Harness-1 達到 0.730 的平均策展召回率，優於最強的開放搜尋子代理 11.4 個百分點，並與更大的前沿模型搜尋器競爭。在保留的轉移基準測試中表現突出，表明強化學習於顯式搜尋狀態可產生泛化行為。代碼已在 GitHub 公開，供研究社群參考。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses