返回事件流

KVarN:方差歸一化KV-Cache量化減少推理任務誤差累積

在HuggingFace上發布的研究論文提出了一種名為KVarN的新型KV-cache量化技術,針對大型語言模型在推理任務中長序列解碼時面臨的記憶瓶頸問題。論文指出,測試時縮放雖能增強模型推理能力,但KV-cache隨時間增長導致記憶需求激增,而現有量化方法多在類似預填充的設定下評估,忽略了自回歸解碼中誤差行為的差異,致使量化誤差隨時間步累積,主要源自不正確的標記尺度。KVarN是一種免校準的量化器,通過應用Hadamard旋轉和雙軸方差歸一化來修正異常標記尺度誤差,從而顯著降低誤差累積。實驗結果顯示,KVarN在MATH500、AIME24和HumanEval等生成式基準測試中,以2位元精度達到了最先進的性能。此外,該方法已有vLLM的實現版本,方便開發者部署應用,為高效能大型語言模型的推理提供了新解決方案。

來源:Hugging Face / 論文來源