新論文提出BudgetDraft:提升稀疏KV投機解碼的接受率
研究論文明確指出,針對資源受限環境下的中長上下文(4K至16K)推理場景,傳統的稀疏/全量投機解碼方法會因稀疏與全量快取不匹配,導致接受率隨上下文增長而下降。為解決此問題,論文提出了名為『BudgetDraft』的新型多視角稀疏訓練方法。該方法在訓練階段讓草稿模型(drafter)接觸多種採樣的KV預算,並學習將每個稀疏視圖與一個共享的全快取教師目標進行對齊。論文介紹,BudgetDraft結合了基於全快取分支的『接受感知損失』與基於稀疏快取分支的『多視角損失』,從而訓練出一個對預算變動具有韌性的單一草稿模型,在推理時無需額外元件即可恢復不同稀疏度下的接受率。實驗結果顯示,在PG-19、LongBench和LWM等基準測試上,與自回歸解碼相比,BudgetDraft在4K、8K和16K上下文長度下分別達到了最高6.55倍、4.46倍和2.10倍的端到端加速,同時保持了推理流程對記憶體的友好性。
來源
來源:網頁來源