研究06/04 14:32

KVarN：方差歸一化KV-Cache量化減少推理任務誤差累積

在HuggingFace上發布的研究論文提出了一種名為KVarN的新型KV-cache量化技術，針對大型語言模型在推理任務中長序列解碼時面臨的記憶瓶頸問題。論文指出，測試時縮放雖能增強模型推理能力，但KV-cache隨時間增長導致記憶需求激增，而現有量化方法多在類似預填充的設定下評估，忽略了自回歸解碼中誤差行為的差異，致使量化誤差隨時間步累積，主要源自不正確的標記尺度。KVarN是一種免校準的量化器，通過應用Hadamard旋轉和雙軸方差歸一化來修正異常標記尺度誤差，從而顯著降低誤差累積。實驗結果顯示，KVarN在MATH500、AIME24和HumanEval等生成式基準測試中，以2位元精度達到了最先進的性能。此外，該方法已有vLLM的實現版本，方便開發者部署應用，為高效能大型語言模型的推理提供了新解決方案。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks