研究06/02 10:05

推測流水線解碼：透過流水線並行實現零延遲與高準確率

研究論文提出一種名為推測流水線解碼（Speculative Pipeline Decoding, SPD）的新框架，旨在為大型語言模型（LLM）的推理解碼過程帶來加速。論文指出，現有的主流推測解碼方法通常依賴多詞元預測，這會導致預測難度不斷攀升，並產生串行的草稿延遲。為了解決這些問題，SPD 框架的核心創新在於將目標 LLM 劃分為 n 個流水線階段，使得模型能同時並行處理 n 個詞元。為了在單序列解碼中持續填充流水線，框架設計了一個推測模組，該模組能在不同流水線深度間聚合中間特徵來預測下一個詞元，其執行嚴格與目標模型的流水線步驟平行，從而實現有界的預測難度、更高的接受率以及零延遲氣泡。根據論文內的實驗結果顯示，相較於現有主流基線方法，SPD 理論上能達到顯著更高的加速倍率，被視為一種具有高度擴展性的 LLM 解碼加速解決方案。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism