研究06/04 01:36

FiRe-OPD：重新思考On-Policy蒸餾優化粒度

根據研究論文指出，On-Policy蒸餾（OPD）在大型語言模型訓練中，正從傳統的全軌跡KL監督轉向更選擇性的訓練範式。近期OPD方法越來越注重選擇哪些軌跡來學習、哪些令牌最具資訊量，以及哪些監督信號最可靠。受此趨勢啟發，論文重新思考OPD的優化粒度，並提出FiRe-OPD（Filter, then Reweight）方法。FiRe-OPD首先過濾軌跡以移除低品質的滾動樣本，然後在保留的軌跡中應用軟重新加權機制，以強調資訊性令牌。與硬令牌選擇相比，FiRe-OPD利用軟加權有效減輕資訊丟失並增強優化穩定性，從而實現更細粒度的OPD優化。論文驗證了FiRe-OPD在強到弱、單教師和多教師設置中的有效性，並展示其優於近期令牌級OPD方法，例如在AIME 2024的強到弱設置中提升6.25分，在Miner的多教師設置中提升18.81分。相關代碼已開源於GitHub，促進研究社群進一步探索。

來源

來源：網頁來源

網頁來源Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation