研究06/01 12:16

大型語言模型微調中數據選擇的長期影響

研究論文提出，數據選擇在大型語言模型（LLM）微調中越來越常用於降低成本，但現有方法多基於當前效用、多樣性、品質或影響力來優先選擇樣本。這篇論文探討一個不同問題：當微調在多個階段進行時，那些在當前看起來最優的選擇策略，是否會使模型在後續適應中變得較差？研究引入了一個長期視角，評估選擇器不僅基於即時任務表現，還考慮未來適應速度、遺忘、能力不平衡和分布外穩健性。通過統一的多階段協議，比較了隨機、基於損失、基於梯度、基於多樣性、基於品質和效用多樣性等選擇方法。控制實驗顯示，短期選擇器可能表現出排名反轉：它們改善當前階段，但減慢後續學習並增加遺忘。論文將此行為形式化為近視選擇，並提出一個診斷性的長期感知選擇（LHAS）目標，增強即時效用以覆蓋、未來代理轉移和反集中項。研究主張，數據選擇應被視為塑造模型學習軌跡的訓練干預，而非僅是局部數據效率機制。

來源

來源：網頁來源

網頁來源The Long-Term Effects of Data Selection in LLM Fine-Tuning