多領域強化學習中跨領域干擾與恢復的局部擾動理論
研究論文提出一個局部擾動理論,以解釋多領域強化學習中跨領域干擾與恢復的機制。論文指出,對大型語言模型進行單領域訓練時,雖然能提升特定領域如數學推理或代碼生成的性能,但往往會損害其他領域的表現。現有的解釋基於災難性遺忘或全局梯度衝突並不完整,因為即使全模型梯度近乎正交,仍可能發生顯著干擾。論文顯示,單領域 RL 產生稀疏、小幅度的參數編輯,頂層變化的神經元重疊較弱,但不同領域在共享的活躍計算路徑上存在干擾。在局部擾動模型下,後續領域訓練主要通過一個二階損害項損害先前領域,此損害在觀察到的稀疏路徑結構下集中在一個低維共享衝突子空間。短暫的領域刷新可以收縮此子空間上的有害成分,實現有限的附帶損害下的選擇性恢復。例如,在 Code → Math → QA → CW 的訓練序列後,短暫的 Re-Math 刷新將 Math 性能從 57.66 恢復到 66.04,同時保持其他領域性能,平均分數達 66.39。論文還提出基於稀疏代理衝突坐標集的訓練免費回滾方法,部分恢復 Math 性能,提供代理級別的直接證據。這些結果為多領域 RL 中的干擾與恢復提供了局部機制解釋。
來源:Hugging Face / 論文來源