返回事件流

Cosmos 3:物理AI的全模態世界模型發佈

研究論文提出Cosmos 3,這是一系列為物理AI設計的全模態世界模型。論文指出,Cosmos 3採用統一的變換器架構,能夠同時處理和生成語言、圖像、視頻、音頻和動作序列。透過高度靈活的輸入輸出配置,它無縫統一了視覺語言模型、視頻生成器、世界模擬器和世界動作模型等關鍵模態,形成一個單一框架。評估顯示,Cosmos 3在多項理解和生成任務上建立了新的最佳水平,證明全模態世界模型作為可擴展、通用型骨幹,適用於具身智能體。此外,後訓練的Cosmos 3模型在Artificial Analysis的評比中被評為最佳開源文本到圖像和圖像到視頻模型,並在RoboArena中獲得最佳策略模型。為促進物理AI的開放研究和部署,研究團隊在Linux基金會的OpenMDW-1.1許可下,提供了代碼、模型檢查點、合成數據集和評估基準。項目網站和相關資源均可公開存取。

來源:Hugging Face / 論文來源