DecomposeR:以規劃者為中心的深度研究強化學習框架
研究論文探討,深度研究任務需要大型語言模型進行規劃、檢索證據和綜合長篇答案。現有訓練方法依賴短形式可驗證問答或優化單一長軌跡,使得規劃與執行難以分離,並導致規劃過程的信用分配薄弱。為此,研究團隊提出 DecomposeR,一個以規劃者為中心的深度研究框架,將研究計劃表示為類型化有向無環圖(DAG),使規劃顯式化、結構化且可獎勵。訓練過程分為兩階段:首先使用規劃者強化學習(planner RL)學習圖結構和查詢分解,以改善研究規劃;接著使用回答者強化學習(answerer RL)在學習的計劃條件下學習分支級執行和最終綜合。通過對明確的規劃者標記和結構化組件分配獎勵,DecomposeR 實現了更細粒度的規劃優化,同時減少端到端訓練的模糊性。實驗結果顯示,DecomposeR-8B 模型在流行長篇基準測試上,比強大的可比開放基線模型提高了 5.1 至 8.0 分,這歸功於其改進的規劃和回答能力。論文進一步強調結構化計劃在強化學習應用中的重要性。
來源
來源:網頁來源