研究06/04 14:24

多領域強化學習中跨領域干擾與恢復的局部擾動理論

研究論文提出一個局部擾動理論，以解釋多領域強化學習中跨領域干擾與恢復的機制。論文指出，對大型語言模型進行單領域訓練時，雖然能提升特定領域如數學推理或代碼生成的性能，但往往會損害其他領域的表現。現有的解釋基於災難性遺忘或全局梯度衝突並不完整，因為即使全模型梯度近乎正交，仍可能發生顯著干擾。論文顯示，單領域 RL 產生稀疏、小幅度的參數編輯，頂層變化的神經元重疊較弱，但不同領域在共享的活躍計算路徑上存在干擾。在局部擾動模型下，後續領域訓練主要通過一個二階損害項損害先前領域，此損害在觀察到的稀疏路徑結構下集中在一個低維共享衝突子空間。短暫的領域刷新可以收縮此子空間上的有害成分，實現有限的附帶損害下的選擇性恢復。例如，在 Code → Math → QA → CW 的訓練序列後，短暫的 Re-Math 刷新將 Math 性能從 57.66 恢復到 66.04，同時保持其他領域性能，平均分數達 66.39。論文還提出基於稀疏代理衝突坐標集的訓練免費回滾方法，部分恢復 Math 性能，提供代理級別的直接證據。這些結果為多領域 RL 中的干擾與恢復提供了局部機制解釋。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源A Local Perturbation Theory for Cross-Domain Interference and Recovery in Multi-Domain RL