ART:高效大型語言模型解碼的注意力運行時終止
研究論文提出了一種名為注意力運行時終止(ART)的創新機制,旨在解決大型語言模型在長上下文解碼時面臨的記憶體頻寬瓶頸問題。論文指出,現有的 Key-Value(KV)快取管理方法大多依賴解碼前的鍵修剪,但注意力輸出實際上取決於鍵和值的聯合,而現有方法中整合值的計算開銷過於高昂。ART 機制通過在內核執行期間動態跟踪累積的注意力輸出,一旦後續貢獻變得可以忽略,便立即終止對相關 KV 塊的存取。這種設計使得 ART 與現有的基於鍵的方法正交,可以無縫整合到現有系統中。實驗部分在 LongBench 基準測試上進行,結果顯示 ART 在大批量大小下比最先進的基線方法提高了 20% 的生成吞吐量,同時維持了可比的準確性。這項研究為優化大型語言模型的解碼效率提供了新途徑,展現了在資源受限環境下的應用潛力。
來源
來源:網頁來源