研究06/04 14:37

Cosmos 3：物理AI的全模態世界模型發佈

研究論文提出Cosmos 3，這是一系列為物理AI設計的全模態世界模型。論文指出，Cosmos 3採用統一的變換器架構，能夠同時處理和生成語言、圖像、視頻、音頻和動作序列。透過高度靈活的輸入輸出配置，它無縫統一了視覺語言模型、視頻生成器、世界模擬器和世界動作模型等關鍵模態，形成一個單一框架。評估顯示，Cosmos 3在多項理解和生成任務上建立了新的最佳水平，證明全模態世界模型作為可擴展、通用型骨幹，適用於具身智能體。此外，後訓練的Cosmos 3模型在Artificial Analysis的評比中被評為最佳開源文本到圖像和圖像到視頻模型，並在RoboArena中獲得最佳策略模型。為促進物理AI的開放研究和部署，研究團隊在Linux基金會的OpenMDW-1.1許可下，提供了代碼、模型檢查點、合成數據集和評估基準。項目網站和相關資源均可公開存取。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Cosmos 3: Omnimodal World Models for Physical AI