研究06/03 24:10

DLLM-JEPA：為遮罩擴散語言模型引入聯合嵌入預測架構

研究論文提出 DLLM-JEPA，這是一種將聯合嵌入預測架構（JEPA）與遮罩擴散語言模型結合的新方法。傳統上，JEPA 在視覺自監督學習中取得成功，而近期 LLM-JEPA 將其移植到自迴歸語言模型，但面臨需要多視圖數據和雙梯度前向傳播的高成本問題。DLLM-JEPA 利用擴散模型的雙向注意力，通過不同遮罩率生成同一輸入的兩個語義視圖，無需額外數據對，並支持單一梯度前向傳播，從而減少 33% 的訓練計算量。論文實驗顯示，在 LLaDA-8B 和 Dream-7B 等模型上，DLLM-JEPA 在 GSM8K、Spider 等任務中提升性能，例如在 LLaDA-8B 上 GSM8K 準確率提高 18.7 個百分點。此外，它展現雙贏屬性：提高準確率同時降低保留數據的損失，並保持其他基準測試的性能。進一步分析揭示其機制為幾何-功能漂移解離，微調後的骨幹網絡在參數距離上更遠但遺忘更少，此現象在不同模型中普遍存在。

來源

來源：網頁來源

網頁來源DLLM-JEPA: Joint Embedding Predictive Architectures for Masked Diffusion Language Models