研究06/01 10:36

消除瓶頸的統一多模態模型：表示強制技術

研究論文提出，統一多模態模型（UMMs）旨在於單一模型中處理感知與生成任務，但現有模型仍依賴一個凍結且獨立預訓練的 VAE 進行圖像生成，這形成了結構性瓶頸。若直接移除 VAE，模型必須從原始像素學習高層結構與低層細節，導致品質下降。論文提出表示強制（RF）技術來彌補這一差距，使表示預測成為模型的原生能力。具體而言，RF 強制解碼器自回歸地預測視覺表示作為中間 token，這些 token 留在上下文中以指導同一骨幹中的像素擴散過程。通過將表示從感知輸出轉化為生成目標，RF 消除了對任何外部生成潛在空間的需求。研究發現，RF 對理解與生成都有益處，在圖像生成方面，使用 RF 的像素空間模型匹配了最先進的 VAE 基礎統一模型，並在圖像理解方面通常優於其 VAE 基礎變體，為端到端、無瓶頸的統一多模態模型提供了有效步驟。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Representation Forcing for Bottleneck-Free Unified Multimodal Models