返回事件流

探究提示詞 KV 快取的冗餘性:何時可被替換

研究論文提出,先前的 KV 快取壓縮方案在實驗中顯示,提示詞快取在解碼過程中部分冗餘,丟棄或摘要條目對準確度影響不大。本研究進一步探究這種冗餘性的具體情況:在哪些層、多少解碼步驟後,以及以何種形式可以替換提示詞 KV 快取而不破壞任務。透過控制的剪接實驗,掃描層截斷和解碼步驟,發現冗餘性主要關乎形式,而非內容。具體而言,將上層提示詞 KV 快取替換為來自聊天模板腳手架的快取,其中使用者內容為中性填充詞,能夠恢復接近乾淨的準確度;而將相同位置歸零則會導致準確度崩潰。這種分離現象在 Qwen3、Gemma 3 和 Llama 3 等模型家族的多個數據集中得到複製,為優化 KV 快取管理提供了實證依據。

來源

來源:網頁來源