LongTraceRL:從搜尋代理軌跡與評分標準獎勵中學習長上下文推理
研究論文探討大型語言模型在長上下文推理中的核心挑戰,指出模型常無法在大量干擾內容中定位和整合關鍵資訊。雖然強化學習與可驗證獎勵(RLVR)對此任務展現潛力,但現有方法受限於低混淆度的干擾物和僅結果的稀疏獎勵信號,無法監督中間推理步驟。為解決這些問題,論文提出 LongTraceRL。在數據構建方面,透過知識圖隨機漫步生成多跳問題,並利用搜尋代理軌跡構建層次化干擾物:代理閱讀但未引用的文檔具有高混淆度,而搜索結果中出現但未開啟的文檔具有低混淆度,從而產生比隨機抽樣或一次性搜索更具挑戰性的訓練上下文。在獎勵設計方面,提出評分標準獎勵,使用每個推理鏈上的金標準實體作為細粒度、實體級的過程監督。此獎勵僅應用於具有正確最終回答的回應(僅正例策略),以區分正確回應中的推理品質並防止獎勵駭客。實驗在三個推理 LLM(4B至30B)和五個長上下文基準測試上進行,結果顯示 LongTraceRL 一致地優於強基線,鼓勵全面且基於證據的推理。相關代碼、數據集和模型已公開於 GitHub。
來源
來源:Hugging Face / 論文來源