返回事件流

TOPD提出以近期未来指导改进大模型推理蒸馏

研究論文提出了一種名為「感知軌跡的在策略蒸馏」(Trajectory-aware OPD,簡稱 TOPD)的新方法,旨在改進現有的大語言模型推理能力訓練技術。在策略蒸馏(On-Policy Distillation,OPD)透過從學生模型自身策略生成的軌跡中取樣進行訓練,並在教師監督下修正其推理過程。然而,論文指出,現有的 OPD 機制雖然操作於完整的軌跡,但其學習信號仍停留在詞元(token)層面,這種「軌跡取樣、詞元學習」的方式,難以可靠地將學生軌跡引導至教師軌跡的方向。實驗發現,約30%的高損失詞元處於低分歧狀態,僅是表面形式不匹配,而非真正的推理分歧點。即便是真正的分歧詞元,也難以透過孤立的詞元層面監督來有效修復,因為推理錯誤往往表現為短期的分佈漂移。為此,TOPD 引入了近期未來軌跡的資訊,用於識別真正的分歧狀態,並將指導訊號分散到未來的多個詞元上。實驗結果表明,抑制非分歧的高損失詞元即可將標準 OPD 的平均準確率從 47.8% 提升至 48.2%;而 TOPD 則進一步將性能提升至 52.2%,在 AIME24 和 AIME25 等數學推理測試基準上分別從 60.0% 提升到 63.3%,以及從 46.7% 提升到 53.3%。

來源

來源:網頁來源