並非所有分歧皆可學習:政策蒸餾中的詞元可教性
研究論文探討政策蒸餾(OPD)中的詞元選擇問題。OPD 訓練學生模型基於自身回放進行,並接受詞元級教師監督。近期選擇性 OPD 方法透過優先處理高熵或高分歧詞元來利用信號的非均勻性。本文重新審視此原則,提出並非所有分歧皆可學習,並定義詞元可教性,即教師對學生 top-K 候選詞的質量分配。基於此,研究提出可教性感知政策蒸餾(TA-OPD),一種輕量級詞元位置選擇方法,應用於高可教性位置,無需獎勵模型或驗證器。實驗結果顯示,在 Qwen2.5 和 Qwen 3 教師-學生設置中,TA-OPD 僅保留 5% 的詞元即可超越全詞元 OPD,並優於基於熵和散度的基線方法。這項研究將選擇性 OPD 重新定義為選擇可學習教師信號,而非僅選擇顯著詞元。
來源
來源:Hugging Face / 論文來源