研究06/03 24:16

新論文提出BudgetDraft：提升稀疏KV投機解碼的接受率

研究論文明確指出，針對資源受限環境下的中長上下文（4K至16K）推理場景，傳統的稀疏/全量投機解碼方法會因稀疏與全量快取不匹配，導致接受率隨上下文增長而下降。為解決此問題，論文提出了名為『BudgetDraft』的新型多視角稀疏訓練方法。該方法在訓練階段讓草稿模型（drafter）接觸多種採樣的KV預算，並學習將每個稀疏視圖與一個共享的全快取教師目標進行對齊。論文介紹，BudgetDraft結合了基於全快取分支的『接受感知損失』與基於稀疏快取分支的『多視角損失』，從而訓練出一個對預算變動具有韌性的單一草稿模型，在推理時無需額外元件即可恢復不同稀疏度下的接受率。實驗結果顯示，在PG-19、LongBench和LWM等基準測試上，與自回歸解碼相比，BudgetDraft在4K、8K和16K上下文長度下分別達到了最高6.55倍、4.46倍和2.10倍的端到端加速，同時保持了推理流程對記憶體的友好性。

來源

來源：網頁來源

網頁來源BudgetDraft: Acceptance-Aware Multi-View Training for Sparse-KV Speculative Decoding