返回事件流

信任區域在線蒸餾技術

研究論文提出一種名為TrOPD(Trust Region On-Policy Distillation)的新技術,旨在改善大語言模型(LLM)後訓練中的在線蒸餾(OPD)穩定性。OPD 是一種基礎技術,廣泛應用於代理學習、多任務增強和模型壓縮,但當教師和學生模型分布差異較大時,訓練容易不穩定,導致不可靠的策略梯度甚至優化失敗。TrOPD 透過信任區域在線學習,僅在教師提供可靠監督的區域執行蒸餾,減輕分布不匹配下的優化困難;同時引入離群值估計技術,如梯度裁剪、遮罩和前向 KL 估計,以減少不可靠監督的負面影響;此外,結合離線指導策略,讓學生從教師前綴繼續生成並模仿,鼓勵向可靠區域探索。實驗顯示,TrOPD 在數學推理、代碼生成和通用基準測試中, consistently 優於現有 OPD 基線方法。

來源

來源:Hugging Face / 論文來源