AnyMo:透過遮蔽建模擴展任意模態條件式動作生成
在電腦視覺與機器人學領域,條件式動作生成一直是基礎挑戰。儘管已有顯著進展,當前方法常受限於固定模態配置和任務特定架構,使得跨模態互動及多模態合成的擴展法則鮮少被探索。關鍵瓶頸在於缺乏大規模模態對齊的動作數據,限制了跨多樣控制信號的泛化能力。研究論文提出 OmniHuMo,一個大規模、高品質的數據集,包含超過 5,000 小時的動作和 320 萬個序列,具有精確對齊的多模態標註,如文本、語音、音樂和軌跡。基於此數據集,研究團隊開發了 AnyMo 框架,結合了基於殘差 FSQ 的動作分詞器和可擴展的遮蔽建模轉換器,能夠在任意模態組合下生成高品質動作。論文探討的廣泛實驗顯示,AnyMo 在實現高保真合成的同時,提供了對空間和風格屬性的靈活控制,為多模態動作生成研究帶來新進展。
來源
來源:Hugging Face / 論文來源