研究06/01 10:36

Lumos-Nexus：高效頻率橋接的影片統一模型

研究論文提出 Lumos-Nexus，一個訓練高效的影片統一模型框架。基於連接器的影片統一模型在指令驅動的影片合成中展現強大能力，但將大型高保真生成器整合到統一訓練迴圈中計算成本高昂，限制了視覺品質。為此，Lumos-Nexus 採用兩階段設計：在訓練階段，僅將輕量生成器與理解區塊對齊，以學習接收推理驅動的語義控制；在推理階段，引入統一漸進式頻率橋接（UPFB），在共享潛在空間中逐步將生成任務交接給高容量預訓練生成器，實現由粗到精的細化，從而產生高保真影片而不影響推理品質。此外，為填補推理驅動影片生成基準的空白，論文引入了 VR-Bench，評估模型將推斷意圖轉化為連貫且語義對齊影片內容的能力。大量實驗表明，Lumos-Nexus 在 VBench 上實現了視覺逼真度和時間連貫性的顯著提升，同時在 VR-Bench 上展現了強大的基於推理的生成性能。代碼和模型已發布在指定網頁上。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models