研究06/02 24:09

AnyMo：透過遮蔽建模擴展任意模態條件式動作生成

在電腦視覺與機器人學領域，條件式動作生成一直是基礎挑戰。儘管已有顯著進展，當前方法常受限於固定模態配置和任務特定架構，使得跨模態互動及多模態合成的擴展法則鮮少被探索。關鍵瓶頸在於缺乏大規模模態對齊的動作數據，限制了跨多樣控制信號的泛化能力。研究論文提出 OmniHuMo，一個大規模、高品質的數據集，包含超過 5,000 小時的動作和 320 萬個序列，具有精確對齊的多模態標註，如文本、語音、音樂和軌跡。基於此數據集，研究團隊開發了 AnyMo 框架，結合了基於殘差 FSQ 的動作分詞器和可擴展的遮蔽建模轉換器，能夠在任意模態組合下生成高品質動作。論文探討的廣泛實驗顯示，AnyMo 在實現高保真合成的同時，提供了對空間和風格屬性的靈活控制，為多模態動作生成研究帶來新進展。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling