返回事件流

CONF-KV:用於長序列LLM的基於信心的KV快取淘汰方法

研究論文提出CONF-KV,這是一種針對長序列大型語言模型(LLM)推理的KV快取管理技術。在長序列推理中,KV快取成為GPU記憶體的主要消耗,使得每個詞的注意力計算成本高昂。許多現有淘汰策略依賴靜態窗口或歷史注意力,但忽略了模型在每個解碼步驟中計算的當前不確定性信號。CONF-KV通過將下一詞分佈轉換為標量信心分數,用於動態調整每步快取預算:當模型不確定時保留更多上下文,自信時積極修剪。在預算內,詞條基於累積注意力質量和最近性排序,並保留一個受保護的最近窗口以維持局部連貫性。該方法還結合了逐塊在線softmax注意力、混合FP16/INT8存儲和逐層預算變體。實驗結果顯示,在多個模型家族和生成長度達4K的情況下,CONF-KV的記憶體佔用接近固定512詞滑動窗口,但困惑度損失僅1.5至2.1點。在Needle-in-a-Haystack測試中,長度達32K詞時,CONF-KV的檢索準確率為91.4%,遠高於滑動窗口的53.8%和H2O的80.6%。在75項VisualWebArena任務中,它保持全KV成功率的95.3%,但峰值記憶體降低2.8倍。

來源

來源:Hugging Face / 論文來源