dMoE:具有可學習區塊專家的擴散大型語言模型
研究論文提出,擴散大型語言模型(dLLMs)作為自回歸模型的替代方案,支持平行解碼且性能具競爭力。然而,當dLLMs與混合專家(MoE)架構整合以擴展容量時,出現區塊平行解碼與詞元級專家選擇的根本不匹配,導致唯一啟動的專家數量增加,造成推斷記憶瓶頸。為解決此問題,論文提出dMoE,一個簡單有效的區塊級MoE框架。其核心思想是將每個區塊內的詞元級專家分佈聚合為統一的區塊級分佈,用於更一致地指導專家路由,從而大幅減少唯一啟動的專家數量而不犧牲性能。實驗結果顯示,dMoE平均將唯一啟動的專家從69.5降至14.6,保留99.11%原始性能,記憶使用降低76.64%至79.84%,並實現1.14倍至1.66倍的端到端延遲加速。代碼已在GitHub上提供。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源dMoE: dLLMs with Learnable Block Experts