研究06/01 12:07

DecomposeR：以規劃者為中心的深度研究強化學習框架

研究論文探討，深度研究任務需要大型語言模型進行規劃、檢索證據和綜合長篇答案。現有訓練方法依賴短形式可驗證問答或優化單一長軌跡，使得規劃與執行難以分離，並導致規劃過程的信用分配薄弱。為此，研究團隊提出 DecomposeR，一個以規劃者為中心的深度研究框架，將研究計劃表示為類型化有向無環圖（DAG），使規劃顯式化、結構化且可獎勵。訓練過程分為兩階段：首先使用規劃者強化學習（planner RL）學習圖結構和查詢分解，以改善研究規劃；接著使用回答者強化學習（answerer RL）在學習的計劃條件下學習分支級執行和最終綜合。通過對明確的規劃者標記和結構化組件分配獎勵，DecomposeR 實現了更細粒度的規劃優化，同時減少端到端訓練的模糊性。實驗結果顯示，DecomposeR-8B 模型在流行長篇基準測試上，比強大的可比開放基線模型提高了 5.1 至 8.0 分，這歸功於其改進的規劃和回答能力。論文進一步強調結構化計劃在強化學習應用中的重要性。

來源

來源：網頁來源

網頁來源Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward