返回事件流

大型語言模型序列後訓練中的表示崩潰

研究論文提出,大型語言模型現今透過多階段序列後訓練來適應任務,而非單一指令調整。該研究探討這種序列後訓練是否會逐漸將內部表示壓縮到低秩、非均勻且同質的特徵空間,此現象稱為表示崩潰。論文定義了一套測量工具,用於分析隱藏狀態、logits、token 軌跡和 LoRA 更新,並在控制的階段順序下,分析監督微調、偏好優化、安全調整、數學與代碼專精以及長鏈思維調整等過程。核心假設是過度的表示集中不僅是幾何特性,它預示了後續適應中可塑性的降低、域外泛化能力的減弱以及校準的惡化。論文進一步評估了輕量級干預方法,包括混合域重放、特徵刷新、表示多樣性正則化和 LoRA 更新去相關,以在不放棄後訓練行為收益的情況下,維持未來的學習能力。

來源

來源:網頁來源