返回事件流

Harness-1:用於搜尋代理的強化學習與狀態外化架構

論文探討搜尋代理的訓練方式,指出傳統模型在決策搜尋的同時需管理大量內部狀態,這增加了強化學習的負擔。為此,研究提出 Harness-1,一個 20B 參數的搜尋代理,在狀態化搜尋架構中訓練。該架構由環境端維護工作記憶,包括候選池、重要性標記的策展集、證據連結、驗證記錄、壓縮去重觀察和預算感知上下文渲染,而策略專注於語義決策如搜尋內容、文件保留、驗證和停止時機。在八個涵蓋網頁、金融、專利和多跳問答的檢索基準測試中,Harness-1 達到 0.730 的平均策展召回率,優於最強的開放搜尋子代理 11.4 個百分點,並與更大的前沿模型搜尋器競爭。在保留的轉移基準測試中表現突出,表明強化學習於顯式搜尋狀態可產生泛化行為。代碼已在 GitHub 公開,供研究社群參考。

來源

來源:Hugging Face / 論文來源