返回事件流

BitsMoE:高效光譜能量引導的MoE大語言模型量化位元分配

研究論文提出BitsMoE,一個用於Mixture-of-Experts大語言模型量化的光譜能量引導位元分配框架。MoE模型通過稀疏專家激活減少每詞元計算量,但部署時因所有專家權重需常駐內存而導致內存消耗大。現有壓縮方法在超低位數制下效果不佳,例如剪枝不可逆地移除模型容量,而粗粒度量化無法根據異質專家和權重方向重要性分配位元。BitsMoE通過SVD將每個MoE層分解為共享基礎和專家特定光譜因子,保留共享基礎不量化以保持跨專家結構,並使用專家特定因子作為精細量化單位。為確定每個單位的位寬,BitsMoE將光譜層面混合精度量化制定為激活感知重建代理,並在固定位元預算下通過整數線性規劃最小化估計重建損失。實驗在多個MoE大語言模型上顯示,在2位量化下,BitsMoE在Qwen3-30B-A3B-Base上加速量化12.3倍,提升平均精度27.83個百分點,並增加解碼速度1.76倍,優於GPTQ。該模型和代碼已在GitHub公開發布。

來源

來源:網頁來源