NVIDIA 推出 X-Token:跨分詞器知識蒸餾方法,優於 GOLD 3.82 平均分數
媒體報導指出,NVIDIA 研究團隊在跨分詞器知識蒸餾領域取得新進展,推出了 X-Token 方法。知識蒸餾技術通過讓學生模型學習教師模型的完整輸出概率分布來轉移「暗知識」,但傳統方法受限於共享分詞器的要求,無法利用不同分詞器的更強教師模型。現有方法如 GOLD 在處理分詞器不匹配時存在結構性缺陷,導致關鍵標記的學習信號失真,例如數字標記的失敗匹配會造成性能下降。X-Token 通過三個核心組件解決這些問題:首先是動態編程跨度對齊,將教師和學生的標記序列對齊到相同文本子串;其次是投影矩陣 W,通過精確匹配和多標記規則將學生標記映射到教師詞彙空間;最後是兩個互補的損失函數 P-KL 和 H-KL,分別處理投影後的分佈和對齊後的標記,消除分區帶來的噪音。在實驗中,X-Token 在 Llama-3.2-1B 模型上比 GOLD 高出 3.82 個平均點,並在 GSM8k 等基準測試中顯示出顯著性能提升。該方法作為標準知識蒸餾損失的即插即用替代品,無需額外訓練組件或架構變更,為跨分詞器知識蒸餾提供了更有效的解決方案。
來源
來源:媒體報導