返回事件流

消除瓶頸的統一多模態模型:表示強制技術

研究論文提出,統一多模態模型(UMMs)旨在於單一模型中處理感知與生成任務,但現有模型仍依賴一個凍結且獨立預訓練的 VAE 進行圖像生成,這形成了結構性瓶頸。若直接移除 VAE,模型必須從原始像素學習高層結構與低層細節,導致品質下降。論文提出表示強制(RF)技術來彌補這一差距,使表示預測成為模型的原生能力。具體而言,RF 強制解碼器自回歸地預測視覺表示作為中間 token,這些 token 留在上下文中以指導同一骨幹中的像素擴散過程。通過將表示從感知輸出轉化為生成目標,RF 消除了對任何外部生成潛在空間的需求。研究發現,RF 對理解與生成都有益處,在圖像生成方面,使用 RF 的像素空間模型匹配了最先進的 VAE 基礎統一模型,並在圖像理解方面通常優於其 VAE 基礎變體,為端到端、無瓶頸的統一多模態模型提供了有效步驟。

來源

來源:Hugging Face / 論文來源