價值感知隨機 KV 緩存驅逐方法優化推理模型
研究論文提出 Value-aware Stochastic KV Cache Eviction (VaSE) 方法,旨在解決推理模型因長輸出導致的記憶體和計算瓶頸。論文探討指出,現有 KV 緩存驅逐方法雖然能降低成本,但準確性往往不如保持完整緩存的稀疏注意力方法。研究識別了影響準確性的關鍵因素:首先,少數值狀態具有異常大的幅度,移除這些狀態會導致模型進入重複推理迴圈,造成災難性故障;其次,在驅逐過程中引入隨機性,可以通過增加緩存多樣性來提高準確性。基於這些發現,作者提出 VaSE 作為一種免訓練的方案,保護大幅度值狀態並促進多樣化驅逐決策。實驗結果顯示,在六個推理任務上,使用 VaSE 的 Qwen3 模型以 4 倍 KV 緩存壓縮率,平均準確率高於現有最佳稀疏方法,並比最強驅逐方法高出 4% 以上。VaSE 成功彌合了效率與準確性之間的差距,同時支持 FlashAttention2 並為推理模型實現靜態記憶體佔用。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Value-Aware Stochastic KV Cache Eviction for Reasoning Models