Lumos-Nexus:高效頻率橋接的影片統一模型
研究論文提出 Lumos-Nexus,一個訓練高效的影片統一模型框架。基於連接器的影片統一模型在指令驅動的影片合成中展現強大能力,但將大型高保真生成器整合到統一訓練迴圈中計算成本高昂,限制了視覺品質。為此,Lumos-Nexus 採用兩階段設計:在訓練階段,僅將輕量生成器與理解區塊對齊,以學習接收推理驅動的語義控制;在推理階段,引入統一漸進式頻率橋接(UPFB),在共享潛在空間中逐步將生成任務交接給高容量預訓練生成器,實現由粗到精的細化,從而產生高保真影片而不影響推理品質。此外,為填補推理驅動影片生成基準的空白,論文引入了 VR-Bench,評估模型將推斷意圖轉化為連貫且語義對齊影片內容的能力。大量實驗表明,Lumos-Nexus 在 VBench 上實現了視覺逼真度和時間連貫性的顯著提升,同時在 VR-Bench 上展現了強大的基於推理的生成性能。代碼和模型已發布在指定網頁上。
來源
來源:Hugging Face / 論文來源