Draft-OPD:用於推測性草稿模型的在策略蒸餾
研究論文提出Draft-OPD方法,用於改善推測性解碼中的草稿模型性能。推測性解碼是一種加速大型語言模型推理的技術,它將目標模型與輕量級草稿模型配對,草稿模型提出的標記會被並行驗證。常見的方法如EAGLE3和DFlash,是通過監督微調(SFT)在目標生成的軌跡上構建草稿模型。然而,研究觀察到SFT很快就會達到瓶頸,草稿模型在測試數據上的接受長度停止改善,原因在於離線到推理的不匹配:SFT中草稿模型從固定的目標生成軌跡學習,而在推測性解碼中,它是在自己的策略下進行評估。這促使了在策略蒸餾(OPD)的發展,即目標模型在草稿引起的狀態上監督草稿模型。但OPD對草稿模型來說仍然困難,因為草稿模型無法獨立可靠地推出完整序列,而目標輔助生成則使序列遵循目標分佈,從而消除了在策略信號。因此,論文提出Draft-OPD,它使用目標輔助推出以獲得穩定的延續,並從驗證暴露的錯誤位置重放起草過程。這使得草稿模型能夠從目標對已接受和被拒絕提案的反饋中學習,專注於訓練限制推測接受度的草稿引起的錯誤。實驗結果顯示,Draft-OPD在多種任務上為思考模型實現超過5倍的無損加速,分別比EAGLE-3和DFlash提高23%和13%。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Draft-OPD: On-Policy Distillation for Speculative Draft Models