研究05/31 17:52

CONF-KV：用於長序列LLM的基於信心的KV快取淘汰方法

研究論文提出CONF-KV，這是一種針對長序列大型語言模型（LLM）推理的KV快取管理技術。在長序列推理中，KV快取成為GPU記憶體的主要消耗，使得每個詞的注意力計算成本高昂。許多現有淘汰策略依賴靜態窗口或歷史注意力，但忽略了模型在每個解碼步驟中計算的當前不確定性信號。CONF-KV通過將下一詞分佈轉換為標量信心分數，用於動態調整每步快取預算：當模型不確定時保留更多上下文，自信時積極修剪。在預算內，詞條基於累積注意力質量和最近性排序，並保留一個受保護的最近窗口以維持局部連貫性。該方法還結合了逐塊在線softmax注意力、混合FP16/INT8存儲和逐層預算變體。實驗結果顯示，在多個模型家族和生成長度達4K的情況下，CONF-KV的記憶體佔用接近固定512詞滑動窗口，但困惑度損失僅1.5至2.1點。在Needle-in-a-Haystack測試中，長度達32K詞時，CONF-KV的檢索準確率為91.4%，遠高於滑動窗口的53.8%和H2O的80.6%。在75項VisualWebArena任務中，它保持全KV成功率的95.3%，但峰值記憶體降低2.8倍。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM