研究06/04 01:37

Qift：一種無零點W2量化技術用於LLM推理

研究論文探討了二元位重量化在大型語言模型高效推理中的應用。論文指出，傳統的W2量化使用等級集合{-2,-1,0,+1}，但在W2A4/KV4等積極量化設定下，這個集合經常失效。研究團隊分析了在Hadamard旋轉量化管道中二元位重量的標量等級集合幾何，發現非對稱W2顯著改善了標準等級集合，表明W2A4失敗不僅是位元寬度問題，也涉及重建級別。透過對LLaMA-2-7B和LLaMA-3.1-8B的所有224個線性模組進行研究，發現預訓練權重已接近零中心，而Hadamard旋轉主要高斯化了它們的標準化形狀，多餘峰度和Q-Q誤差大幅下降。基於此近似零中心高斯源模型，論文提出Qift，一個固定的無零點W2等級集合，如{+/-0.5, +/-1.5}或{+/-1, +/-3}，用於旋轉W2A4/KV4推理。Qift重新設計了固定的二元位元碼到級別映射，並且是免訓練、免學習碼本、免組網格、免零點，同時保留標準每通道縮放。尺度不變比率分析識別出有效的內/外質心比率範圍為0.25至0.33，解釋了為什麼鏡像無零點、Lloyd、NF2和PoT-MNZ表現良好，而{+/-1, +/-2}則不然。在兩個模型上，無零點等級集合一致改善了純W2A4困惑度、混合W2/W4困惑度、下游準確性和GPTQ殘差行為。在L=16混合精度下，它們大幅縮小了與W3A4的差距，同時保持一半的transformer層在二元位元精度，為更複雜的學習W2碼本提供了簡單、源感知且部署友好的替代方案。

來源

來源：網頁來源

網頁來源Qift: Shift-Friendly No-Zero W2 Post-Training Quantization for Rotated W2A4/KV4 LLM Inference