研究06/02 11:06

Draft-OPD：用於推測性草稿模型的在策略蒸餾

研究論文提出Draft-OPD方法，用於改善推測性解碼中的草稿模型性能。推測性解碼是一種加速大型語言模型推理的技術，它將目標模型與輕量級草稿模型配對，草稿模型提出的標記會被並行驗證。常見的方法如EAGLE3和DFlash，是通過監督微調（SFT）在目標生成的軌跡上構建草稿模型。然而，研究觀察到SFT很快就會達到瓶頸，草稿模型在測試數據上的接受長度停止改善，原因在於離線到推理的不匹配：SFT中草稿模型從固定的目標生成軌跡學習，而在推測性解碼中，它是在自己的策略下進行評估。這促使了在策略蒸餾（OPD）的發展，即目標模型在草稿引起的狀態上監督草稿模型。但OPD對草稿模型來說仍然困難，因為草稿模型無法獨立可靠地推出完整序列，而目標輔助生成則使序列遵循目標分佈，從而消除了在策略信號。因此，論文提出Draft-OPD，它使用目標輔助推出以獲得穩定的延續，並從驗證暴露的錯誤位置重放起草過程。這使得草稿模型能夠從目標對已接受和被拒絕提案的反饋中學習，專注於訓練限制推測接受度的草稿引起的錯誤。實驗結果顯示，Draft-OPD在多種任務上為思考模型實現超過5倍的無損加速，分別比EAGLE-3和DFlash提高23%和13%。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Draft-OPD: On-Policy Distillation for Speculative Draft Models