研究06/05 24:08

ThoughtFold 框架：內省偏好學習優化推理鏈

大型推理模型（LRMs）在基於可驗證獎勵的強化學習（RLVR）下，於思維鏈（CoTs）方面取得顯著進展。然而，由於長思維鏈中自然包含試錯過程，且主流 RLVR 方法選擇結果正確的思維鏈軌跡進行記憶化，冗餘探索被強化，導致模型過度思考的問題。先前嘗試主要給予短軌跡更多優勢，但其學習信號仍基於結果，無法減少冗餘探索的記憶化。因此，研究論文提出 ThoughtFold 框架，利用精細偏好學習來緩解冗餘探索，實現高效推理。ThoughtFold 採用內省策略識別每個正確軌跡中的冗餘，生成候選子軌跡的頻譜。基於此頻譜，引入遮罩偏好優化目標，明確懲罰冗餘探索並鼓勵模型直接連接關鍵推理段，有效地將推理鏈折疊成更簡潔的路徑。廣泛實驗顯示，ThoughtFold 顯著提升效率，將 DeepSeek-R1-Distill-Qwen-7B 的 token 使用量減少約 56%，同時保持 state-of-the-art 準確性。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning