Qift:一種無零點W2量化技術用於LLM推理
研究論文探討了二元位重量化在大型語言模型高效推理中的應用。論文指出,傳統的W2量化使用等級集合{-2,-1,0,+1},但在W2A4/KV4等積極量化設定下,這個集合經常失效。研究團隊分析了在Hadamard旋轉量化管道中二元位重量的標量等級集合幾何,發現非對稱W2顯著改善了標準等級集合,表明W2A4失敗不僅是位元寬度問題,也涉及重建級別。透過對LLaMA-2-7B和LLaMA-3.1-8B的所有224個線性模組進行研究,發現預訓練權重已接近零中心,而Hadamard旋轉主要高斯化了它們的標準化形狀,多餘峰度和Q-Q誤差大幅下降。基於此近似零中心高斯源模型,論文提出Qift,一個固定的無零點W2等級集合,如{+/-0.5, +/-1.5}或{+/-1, +/-3},用於旋轉W2A4/KV4推理。Qift重新設計了固定的二元位元碼到級別映射,並且是免訓練、免學習碼本、免組網格、免零點,同時保留標準每通道縮放。尺度不變比率分析識別出有效的內/外質心比率範圍為0.25至0.33,解釋了為什麼鏡像無零點、Lloyd、NF2和PoT-MNZ表現良好,而{+/-1, +/-2}則不然。在兩個模型上,無零點等級集合一致改善了純W2A4困惑度、混合W2/W4困惑度、下游準確性和GPTQ殘差行為。在L=16混合精度下,它們大幅縮小了與W3A4的差距,同時保持一半的transformer層在二元位元精度,為更複雜的學習W2碼本提供了簡單、源感知且部署友好的替代方案。
來源
來源:網頁來源