研究06/01 12:11

推測解碼跨語言效率研究

根據研究論文提出，推測解碼已成為大型語言模型推理的關鍵技術，能透過並行起草和驗證多個詞元來加速文本生成。然而，小型草稿模型在多語言能力上表現不佳，導致非英語語言生成時效率大幅下降。本研究比較三種策略以提升十一種語言的推測解碼效率：基於任務特定數據（如翻譯）微調草稿模型、在未標記單語語料上微調、以及訓練簡單的n-gram草稿模型。評估涵蓋翻譯和故事生成任務，結果發現，任務特定蒸餾能顯著提升效率，但模型對新任務的泛化能力較差；相比之下，n-gram草稿模型雖然接受率較低，但由於起草生成速度極快，仍能提供一致的大規模加速。這項研究為優化多語言大型語言模型的推理效率提供了實用見解。

來源

來源：網頁來源

網頁來源Speculative Decoding Across Languages