研究06/04 14:19

價值感知隨機 KV 緩存驅逐方法優化推理模型

研究論文提出 Value-aware Stochastic KV Cache Eviction (VaSE) 方法，旨在解決推理模型因長輸出導致的記憶體和計算瓶頸。論文探討指出，現有 KV 緩存驅逐方法雖然能降低成本，但準確性往往不如保持完整緩存的稀疏注意力方法。研究識別了影響準確性的關鍵因素：首先，少數值狀態具有異常大的幅度，移除這些狀態會導致模型進入重複推理迴圈，造成災難性故障；其次，在驅逐過程中引入隨機性，可以通過增加緩存多樣性來提高準確性。基於這些發現，作者提出 VaSE 作為一種免訓練的方案，保護大幅度值狀態並促進多樣化驅逐決策。實驗結果顯示，在六個推理任務上，使用 VaSE 的 Qwen3 模型以 4 倍 KV 緩存壓縮率，平均準確率高於現有最佳稀疏方法，並比最強驅逐方法高出 4% 以上。VaSE 成功彌合了效率與準確性之間的差距，同時支持 FlashAttention2 並為推理模型實現靜態記憶體佔用。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Value-Aware Stochastic KV Cache Eviction for Reasoning Models