研究06/01 12:16

大型語言模型序列後訓練中的表示崩潰

研究論文提出，大型語言模型現今透過多階段序列後訓練來適應任務，而非單一指令調整。該研究探討這種序列後訓練是否會逐漸將內部表示壓縮到低秩、非均勻且同質的特徵空間，此現象稱為表示崩潰。論文定義了一套測量工具，用於分析隱藏狀態、logits、token 軌跡和 LoRA 更新，並在控制的階段順序下，分析監督微調、偏好優化、安全調整、數學與代碼專精以及長鏈思維調整等過程。核心假設是過度的表示集中不僅是幾何特性，它預示了後續適應中可塑性的降低、域外泛化能力的減弱以及校準的惡化。論文進一步評估了輕量級干預方法，包括混合域重放、特徵刷新、表示多樣性正則化和 LoRA 更新去相關，以在不放棄後訓練行為收益的情況下，維持未來的學習能力。

來源

來源：網頁來源

網頁來源Representation Collapse in Sequential Post-Training of Large Language Models