研究06/01 10:36

LongTraceRL：從搜尋代理軌跡與評分標準獎勵中學習長上下文推理

研究論文探討大型語言模型在長上下文推理中的核心挑戰，指出模型常無法在大量干擾內容中定位和整合關鍵資訊。雖然強化學習與可驗證獎勵（RLVR）對此任務展現潛力，但現有方法受限於低混淆度的干擾物和僅結果的稀疏獎勵信號，無法監督中間推理步驟。為解決這些問題，論文提出 LongTraceRL。在數據構建方面，透過知識圖隨機漫步生成多跳問題，並利用搜尋代理軌跡構建層次化干擾物：代理閱讀但未引用的文檔具有高混淆度，而搜索結果中出現但未開啟的文檔具有低混淆度，從而產生比隨機抽樣或一次性搜索更具挑戰性的訓練上下文。在獎勵設計方面，提出評分標準獎勵，使用每個推理鏈上的金標準實體作為細粒度、實體級的過程監督。此獎勵僅應用於具有正確最終回答的回應（僅正例策略），以區分正確回應中的推理品質並防止獎勵駭客。實驗在三個推理 LLM（4B至30B）和五個長上下文基準測試上進行，結果顯示 LongTraceRL 一致地優於強基線，鼓勵全面且基於證據的推理。相關代碼、數據集和模型已公開於 GitHub。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards