ThoughtFold 框架:內省偏好學習優化推理鏈
大型推理模型(LRMs)在基於可驗證獎勵的強化學習(RLVR)下,於思維鏈(CoTs)方面取得顯著進展。然而,由於長思維鏈中自然包含試錯過程,且主流 RLVR 方法選擇結果正確的思維鏈軌跡進行記憶化,冗餘探索被強化,導致模型過度思考的問題。先前嘗試主要給予短軌跡更多優勢,但其學習信號仍基於結果,無法減少冗餘探索的記憶化。因此,研究論文提出 ThoughtFold 框架,利用精細偏好學習來緩解冗餘探索,實現高效推理。ThoughtFold 採用內省策略識別每個正確軌跡中的冗餘,生成候選子軌跡的頻譜。基於此頻譜,引入遮罩偏好優化目標,明確懲罰冗餘探索並鼓勵模型直接連接關鍵推理段,有效地將推理鏈折疊成更簡潔的路徑。廣泛實驗顯示,ThoughtFold 顯著提升效率,將 DeepSeek-R1-Distill-Qwen-7B 的 token 使用量減少約 56%,同時保持 state-of-the-art 準確性。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning