研究06/01 11:06

並非所有分歧皆可學習：政策蒸餾中的詞元可教性

研究論文探討政策蒸餾（OPD）中的詞元選擇問題。OPD 訓練學生模型基於自身回放進行，並接受詞元級教師監督。近期選擇性 OPD 方法透過優先處理高熵或高分歧詞元來利用信號的非均勻性。本文重新審視此原則，提出並非所有分歧皆可學習，並定義詞元可教性，即教師對學生 top-K 候選詞的質量分配。基於此，研究提出可教性感知政策蒸餾（TA-OPD），一種輕量級詞元位置選擇方法，應用於高可教性位置，無需獎勵模型或驗證器。實驗結果顯示，在 Qwen2.5 和 Qwen 3 教師-學生設置中，TA-OPD 僅保留 5% 的詞元即可超越全詞元 OPD，並優於基於熵和散度的基線方法。這項研究將選擇性 OPD 重新定義為選擇可學習教師信號，而非僅選擇顯著詞元。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation