Fast-dLLM++:Fréchet 剖析解碼加速擴散語言模型推論
研究論文在 arXiv 上發布,標題為「Fast-dLLM++: Fréchet Profile Decoding for Faster Diffusion LLM Inference」,針對擴散大型語言模型推論速度的瓶頸提出改進方案。論文指出,現有 Fast-dLLM 方法使用 KV 快取和信心引導的並行解碼,但其理論假設同質高信心,導致候選集受限於最弱選定標記,未能充分利用速度潛力。為此,Fast-dLLM++ 引入 Fréchet 剖析解碼,這是一種訓練無需的擴展,從完整排序的信心配置中選擇並行提交集,從而適應異質信心配置。該方法是 Fast-dLLM 因子選擇器的異質信心推廣,在信心相等時恢復原有規則,並在不均勻時提供可證明的異質性獎勵。官方發布表示,Fast-dLLM++ 保持模型、擴散過程和快取實現不變,可作為現有解碼的直接替代。實驗部分使用 LLaDA-8B 模型在 GSM8K、MATH、HumanEval 和 MBPP 等基準上進行評估,結果顯示剖析感知選擇能有效利用安全並行性,提升準確率與吞吐量的前沿,在相似準確率下吞吐量最高提升 37%。此外,論文附帶的匿名代碼已在 GitHub 上發布,供研究社區使用。
來源
來源:網頁來源