DLLM-JEPA:為遮罩擴散語言模型引入聯合嵌入預測架構
研究論文提出 DLLM-JEPA,這是一種將聯合嵌入預測架構(JEPA)與遮罩擴散語言模型結合的新方法。傳統上,JEPA 在視覺自監督學習中取得成功,而近期 LLM-JEPA 將其移植到自迴歸語言模型,但面臨需要多視圖數據和雙梯度前向傳播的高成本問題。DLLM-JEPA 利用擴散模型的雙向注意力,通過不同遮罩率生成同一輸入的兩個語義視圖,無需額外數據對,並支持單一梯度前向傳播,從而減少 33% 的訓練計算量。論文實驗顯示,在 LLaDA-8B 和 Dream-7B 等模型上,DLLM-JEPA 在 GSM8K、Spider 等任務中提升性能,例如在 LLaDA-8B 上 GSM8K 準確率提高 18.7 個百分點。此外,它展現雙贏屬性:提高準確率同時降低保留數據的損失,並保持其他基準測試的性能。進一步分析揭示其機制為幾何-功能漂移解離,微調後的骨幹網絡在參數距離上更遠但遺忘更少,此現象在不同模型中普遍存在。
來源
來源:網頁來源