DOT-MoE:用於 MoEfication 的可微分最佳運輸框架
研究論文提出 DOT-MoE,這是一個新穎的框架,用於將預訓練的密集大型語言模型轉換為稀疏混合專家模型。大型語言模型的擴展帶來了顯著的性能提升,但也導致推理效率方面的重大挑戰。混合專家架構通過將模型大小與推理成本解耦來解決這一問題,但從頭開始訓練混合專家模型往往不穩定且計算密集。因此,將密集模型轉換為稀疏混合專家模型成為替代方案;然而,現有方法通常依賴啟發式神經元聚類或隨機分割來將前饋網絡劃分為專家。DOT-MoE 將密集層的分解表述為一個可微分最佳運輸問題,利用可微分 Sinkhorn-Knopp 迭代來強制執行嚴格的專家容量約束,並通過直通估計器端到端學習神經元到專家的分配和詞元到專家的路由策略。論文探討的實驗表明,DOT-MoE 在多個架構和基準測試上顯著優於結構化剪枝、啟發式聚類和隨機分割基線,在保留原始密集模型 90% 性能的同時,將活躍參數減少 50%,為大型語言模型的高效部署提供了新途徑。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源DOT-MoE: Differentiable Optimal Transport for MoEfication