研究06/03 24:15

透過廣義瑞利商優化實現基礎模型保留適應

研究論文提出，基礎模型的微調雖然能有效適應特定下游任務，但往往會損害預訓練階段獲得的非目標能力。現有方法雖試圖通過特殊初始化或固定約束來減輕遺忘，但未能在訓練中動態調節適應與保留的權衡。FoLoRA 框架引入第一階保留條件，定義預訓練代理激活上的遺忘懲罰和下游任務激活上的任務效用，並通過廣義瑞利商計算每單位懲罰的任務效用，從而構建頻譜坐標系統，實現方向 wise 的門控 Adam 更新。為準確估計遺忘懲罰，FoLoRA 從預訓練模型中採樣生成預訓練代理校準數據，避免依賴單一數據集。實驗結果表明，FoLoRA 在數學、程式碼和指令跟隨等適應任務中，展現出最優的適應保留平衡，顯著提升目標任務性能，同時最大程度保留非目標能力。

來源

來源：網頁來源

網頁來源Foundation-Preserving Adaptation via Generalized Rayleigh-Quotient Optimization