研究06/02 10:36

NITP：用於大型語言模型預訓練的下一個隱式詞元預測

研究論文提出 Next Implicit Token Prediction（NITP），旨在解決標準下一詞元預測（NTP）中監督稀疏導致的表示空間約束不足問題。論文指出，NTP 僅透過輸出 logit 空間中的離散標籤監督語言模型，這種稀疏的一熱監督使得潛在表示空間受到約束不足，可能限制泛化能力。NITP 透過在表示空間中增加密集連續監督來增強預測，訓練模型預測下一個詞元的隱式語義內容，使用同一模型的淺層表示作為穩定的自監督目標。理論分析顯示，NITP 能正則化優化場景，鼓勵結構化的表示幾何。實驗上，在從 0.5B 到 9B 參數的密集和混合專家（MoE）模型中，NITP 一致改善下游任務性能，例如在 9B MoE 模型上，MMLU-Pro 提升 5.7%，C3 提升 6.4%，CommonsenseQA 提升 4.3%，僅增加約 2% 的訓練計算量，且無額外推理成本。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源NITP: Next Implicit Token Prediction for LLM Pre-training