大型語言模型微調中數據選擇的長期影響
研究論文提出,數據選擇在大型語言模型(LLM)微調中越來越常用於降低成本,但現有方法多基於當前效用、多樣性、品質或影響力來優先選擇樣本。這篇論文探討一個不同問題:當微調在多個階段進行時,那些在當前看起來最優的選擇策略,是否會使模型在後續適應中變得較差?研究引入了一個長期視角,評估選擇器不僅基於即時任務表現,還考慮未來適應速度、遺忘、能力不平衡和分布外穩健性。通過統一的多階段協議,比較了隨機、基於損失、基於梯度、基於多樣性、基於品質和效用多樣性等選擇方法。控制實驗顯示,短期選擇器可能表現出排名反轉:它們改善當前階段,但減慢後續學習並增加遺忘。論文將此行為形式化為近視選擇,並提出一個診斷性的長期感知選擇(LHAS)目標,增強即時效用以覆蓋、未來代理轉移和反集中項。研究主張,數據選擇應被視為塑造模型學習軌跡的訓練干預,而非僅是局部數據效率機制。
來源
來源:網頁來源