推測流水線解碼:透過流水線並行實現零延遲與高準確率
研究論文提出一種名為推測流水線解碼(Speculative Pipeline Decoding, SPD)的新框架,旨在為大型語言模型(LLM)的推理解碼過程帶來加速。論文指出,現有的主流推測解碼方法通常依賴多詞元預測,這會導致預測難度不斷攀升,並產生串行的草稿延遲。為了解決這些問題,SPD 框架的核心創新在於將目標 LLM 劃分為 n 個流水線階段,使得模型能同時並行處理 n 個詞元。為了在單序列解碼中持續填充流水線,框架設計了一個推測模組,該模組能在不同流水線深度間聚合中間特徵來預測下一個詞元,其執行嚴格與目標模型的流水線步驟平行,從而實現有界的預測難度、更高的接受率以及零延遲氣泡。根據論文內的實驗結果顯示,相較於現有主流基線方法,SPD 理論上能達到顯著更高的加速倍率,被視為一種具有高度擴展性的 LLM 解碼加速解決方案。
來源
來源:Hugging Face / 論文來源