研究06/04 24:18

去中心化指令調整：衝突感知分割與權重合併

研究論文提出 MERIT 管道，旨在解決大型語言模型進行指令調整時面臨的梯度干擾與頻寬密集同步問題。論文中，作者發展了一套局部二次理論，在共享平坦盆地內推導出權重合併的效果，包括曲線加權方差減少、沿高曲率方向的 PCA 對齊衝突分割收益最大化，以及合併作為頻譜過濾的隱式正則化。這些理論結果直接啟發了 MERIT 管道的設計，該管道首先估計數據集級別的梯度衝突，然後沿著頂部 PCA 衝突軸將混合數據分割成獨立分區，每個分區在無需分區間通信的情況下獨立進行微調，最後通過 token 加權平均進行一次性合併。在 Qwen2.5-VL-3B 模型上測試 136 個 Vision-FLAN 任務時，MERIT 將 8 基準平均分數從 54.3 提升至 57.0。同樣的配方也成功擴展到 7B 模型和 160 萬實例、176 來源的大型混合數據集，匹配或超越集中式聯合訓練，且成本開銷極低。此外，該方法還能轉移到純文本 FLAN 任務。研究代碼已在 GitHub 上發布，供公眾參考。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Decentralized Instruction Tuning: Conflict-Aware Splitting and Weight Merging