透過廣義瑞利商優化實現基礎模型保留適應
研究論文提出,基礎模型的微調雖然能有效適應特定下游任務,但往往會損害預訓練階段獲得的非目標能力。現有方法雖試圖通過特殊初始化或固定約束來減輕遺忘,但未能在訓練中動態調節適應與保留的權衡。FoLoRA 框架引入第一階保留條件,定義預訓練代理激活上的遺忘懲罰和下游任務激活上的任務效用,並通過廣義瑞利商計算每單位懲罰的任務效用,從而構建頻譜坐標系統,實現方向 wise 的門控 Adam 更新。為準確估計遺忘懲罰,FoLoRA 從預訓練模型中採樣生成預訓練代理校準數據,避免依賴單一數據集。實驗結果表明,FoLoRA 在數學、程式碼和指令跟隨等適應任務中,展現出最優的適應保留平衡,顯著提升目標任務性能,同時最大程度保留非目標能力。
來源
來源:網頁來源