研究06/04 24:49

Regret 預訓練：結合先驗與後驗觀點以增強知識基礎

研究論文提出 Regret 預訓練，這是一個基於學習使用特權資訊（LUPI）範式的自監督框架。該框架採用雙視角架構，其中單一模型同時生成因果學生分佈和未來條件教師分佈。訓練目標透過後悔損失增強標準語言建模，最小化從教師到學生的 KL 散度，從而將未來感知信號傳遞給因果表徵。在 OLMoE-1B-7B 架構上，論文探討了兩種教師配置：LocalRegret，僅擴展一個未來 token 的注意力；GlobalRegret，則基於雙向上下文並遮蔽目標位置。經過 40 億 token 訓練後，實驗在九個下游任務上進行，結果顯示兩種配置均優於基線模型。平均而言，GlobalRegret 和 LocalRegret 分別達到 33.9% 和 32.2% 的準確率，超越基線的 30.2%。最值得注意的是，GlobalRegret 在 BoolQ 任務上將準確率提升了 18.1 個百分點（從 42.9% 提升至 61.0%）。該框架不引入額外參數，僅在每個訓練步驟需要一次額外的推理模式前向傳播。

來源

來源：網頁來源

網頁來源Regret Pre-training: Bridging Prior and Posterior Views for Enhanced Knowledge Grounding