研究06/03 24:12

TOPD提出以近期未来指导改进大模型推理蒸馏

研究論文提出了一種名為「感知軌跡的在策略蒸馏」（Trajectory-aware OPD，簡稱 TOPD）的新方法，旨在改進現有的大語言模型推理能力訓練技術。在策略蒸馏（On-Policy Distillation，OPD）透過從學生模型自身策略生成的軌跡中取樣進行訓練，並在教師監督下修正其推理過程。然而，論文指出，現有的 OPD 機制雖然操作於完整的軌跡，但其學習信號仍停留在詞元（token）層面，這種「軌跡取樣、詞元學習」的方式，難以可靠地將學生軌跡引導至教師軌跡的方向。實驗發現，約30%的高損失詞元處於低分歧狀態，僅是表面形式不匹配，而非真正的推理分歧點。即便是真正的分歧詞元，也難以透過孤立的詞元層面監督來有效修復，因為推理錯誤往往表現為短期的分佈漂移。為此，TOPD 引入了近期未來軌跡的資訊，用於識別真正的分歧狀態，並將指導訊號分散到未來的多個詞元上。實驗結果表明，抑制非分歧的高損失詞元即可將標準 OPD 的平均準確率從 47.8% 提升至 48.2%；而 TOPD 則進一步將性能提升至 52.2%，在 AIME24 和 AIME25 等數學推理測試基準上分別從 60.0% 提升到 63.3%，以及從 46.7% 提升到 53.3%。

來源

來源：網頁來源

網頁來源Bridging Reasoning Trajectories in On-Policy Distillation via Near-Future Guidance