FiRe-OPD:重新思考On-Policy蒸餾優化粒度
根據研究論文指出,On-Policy蒸餾(OPD)在大型語言模型訓練中,正從傳統的全軌跡KL監督轉向更選擇性的訓練範式。近期OPD方法越來越注重選擇哪些軌跡來學習、哪些令牌最具資訊量,以及哪些監督信號最可靠。受此趨勢啟發,論文重新思考OPD的優化粒度,並提出FiRe-OPD(Filter, then Reweight)方法。FiRe-OPD首先過濾軌跡以移除低品質的滾動樣本,然後在保留的軌跡中應用軟重新加權機制,以強調資訊性令牌。與硬令牌選擇相比,FiRe-OPD利用軟加權有效減輕資訊丟失並增強優化穩定性,從而實現更細粒度的OPD優化。論文驗證了FiRe-OPD在強到弱、單教師和多教師設置中的有效性,並展示其優於近期令牌級OPD方法,例如在AIME 2024的強到弱設置中提升6.25分,在Miner的多教師設置中提升18.81分。相關代碼已開源於GitHub,促進研究社群進一步探索。
來源
來源:網頁來源