OmniOPD:無日誌在線策略蒸餾框架
研究論文提出OmniOPD,一種新穎的在線策略蒸餾框架,旨在解決標準方法中的兩個關鍵限制。首先,傳統在線策略蒸餾需要直接存取教師模型的token級logits,這排除了許多強大的黑盒專有模型作為教師的可能性。其次,token級logit信號本身脆弱,容易放大退化模式如重複循環。為此,OmniOPD引入了無日誌的塊級監督信號,通過蒙地卡羅模擬來近似教師的局部偏好,並利用峰值熵調度器僅在學生模型的高不確定性推理分支點進行監督。此外,框架使用Dirichlet-Multinomial貝葉斯先驗和基礎模型KL錨點來約束離散採樣的方差,防止策略崩潰。在競爭性基準測試中,OmniOPD在數學任務上超越標準方法高達+28.64%,證明塊級語義驗證提取了比token級logit匹配更可靠的學習信號。當與更強的黑盒教師如Claude-4.5-Haiku和Gemini-2.5-Flash配對時,OmniOPD在數學任務上相對開源教師額外提升+9.54%,使學生模型性能超越自我探索的強化學習。論文探討了這一方法的潛力,為未來在線策略蒸餾研究提供新方向。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification