Regret 預訓練:結合先驗與後驗觀點以增強知識基礎
研究論文提出 Regret 預訓練,這是一個基於學習使用特權資訊(LUPI)範式的自監督框架。該框架採用雙視角架構,其中單一模型同時生成因果學生分佈和未來條件教師分佈。訓練目標透過後悔損失增強標準語言建模,最小化從教師到學生的 KL 散度,從而將未來感知信號傳遞給因果表徵。在 OLMoE-1B-7B 架構上,論文探討了兩種教師配置:LocalRegret,僅擴展一個未來 token 的注意力;GlobalRegret,則基於雙向上下文並遮蔽目標位置。經過 40 億 token 訓練後,實驗在九個下游任務上進行,結果顯示兩種配置均優於基線模型。平均而言,GlobalRegret 和 LocalRegret 分別達到 33.9% 和 32.2% 的準確率,超越基線的 30.2%。最值得注意的是,GlobalRegret 在 BoolQ 任務上將準確率提升了 18.1 個百分點(從 42.9% 提升至 61.0%)。該框架不引入額外參數,僅在每個訓練步驟需要一次額外的推理模式前向傳播。
來源
來源:網頁來源