返回事件流

NVIDIA 發布 Cosmos 3:統一物理AI推理與生成的基礎模型

據報導,NVIDIA 於近日正式發布 Cosmos 3,這是一個專為物理 AI 設計的全能世界模型家族。不同於先前版本將物理推理、世界生成和動作生成分散於不同模型,Cosmos 3 創新性地採用「雙塔混合 Transformer」架構,將這三種核心能力整合到單一開源模型中。官方公告表示,其「推理塔」是一個基於 Qwen3-VL 架構的視覺語言模型,負責理解圖像、影片和文本中的物理情境;而「生成塔」則採用擴散過程,基於前者的理解來生成物理感知的影片、聲音與動作序列。此次發布包含適用於工作站 GPU 的 16B 參數 Nano 模型,以及面向資料中心的 64B 參數 Super 模型,同時釋出了模型權重、訓練腳本及部署工具。在基準測試方面,媒體報導指出 Cosmos 3 在多項物理 AI 推理與生成評測中取得了領先的成績,其設計旨在服務於機器人、自駕車輛及倉儲監控等團隊。

來源:媒體報導