研究06/04 24:17

信任區域在線蒸餾技術

研究論文提出一種名為TrOPD（Trust Region On-Policy Distillation）的新技術，旨在改善大語言模型（LLM）後訓練中的在線蒸餾（OPD）穩定性。OPD 是一種基礎技術，廣泛應用於代理學習、多任務增強和模型壓縮，但當教師和學生模型分布差異較大時，訓練容易不穩定，導致不可靠的策略梯度甚至優化失敗。TrOPD 透過信任區域在線學習，僅在教師提供可靠監督的區域執行蒸餾，減輕分布不匹配下的優化困難；同時引入離群值估計技術，如梯度裁剪、遮罩和前向 KL 估計，以減少不可靠監督的負面影響；此外，結合離線指導策略，讓學生從教師前綴繼續生成並模仿，鼓勵向可靠區域探索。實驗顯示，TrOPD 在數學推理、代碼生成和通用基準測試中， consistently 優於現有 OPD 基線方法。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Trust Region On-Policy Distillation