返回事件流

NITP:用於大型語言模型預訓練的下一個隱式詞元預測

研究論文提出 Next Implicit Token Prediction(NITP),旨在解決標準下一詞元預測(NTP)中監督稀疏導致的表示空間約束不足問題。論文指出,NTP 僅透過輸出 logit 空間中的離散標籤監督語言模型,這種稀疏的一熱監督使得潛在表示空間受到約束不足,可能限制泛化能力。NITP 透過在表示空間中增加密集連續監督來增強預測,訓練模型預測下一個詞元的隱式語義內容,使用同一模型的淺層表示作為穩定的自監督目標。理論分析顯示,NITP 能正則化優化場景,鼓勵結構化的表示幾何。實驗上,在從 0.5B 到 9B 參數的密集和混合專家(MoE)模型中,NITP 一致改善下游任務性能,例如在 9B MoE 模型上,MMLU-Pro 提升 5.7%,C3 提升 6.4%,CommonsenseQA 提升 4.3%,僅增加約 2% 的訓練計算量,且無額外推理成本。

來源

來源:Hugging Face / 論文來源