研究06/03 24:14

BitsMoE：高效光譜能量引導的MoE大語言模型量化位元分配

研究論文提出BitsMoE，一個用於Mixture-of-Experts大語言模型量化的光譜能量引導位元分配框架。MoE模型通過稀疏專家激活減少每詞元計算量，但部署時因所有專家權重需常駐內存而導致內存消耗大。現有壓縮方法在超低位數制下效果不佳，例如剪枝不可逆地移除模型容量，而粗粒度量化無法根據異質專家和權重方向重要性分配位元。BitsMoE通過SVD將每個MoE層分解為共享基礎和專家特定光譜因子，保留共享基礎不量化以保持跨專家結構，並使用專家特定因子作為精細量化單位。為確定每個單位的位寬，BitsMoE將光譜層面混合精度量化制定為激活感知重建代理，並在固定位元預算下通過整數線性規劃最小化估計重建損失。實驗在多個MoE大語言模型上顯示，在2位量化下，BitsMoE在Qwen3-30B-A3B-Base上加速量化12.3倍，提升平均精度27.83個百分點，並增加解碼速度1.76倍，優於GPTQ。該模型和代碼已在GitHub公開發布。

來源

來源：網頁來源

網頁來源BitsMoE: Efficient Spectral Energy-Guided Bit Allocation for MoE LLM Quantization