哪種預訓練範式更適合空間智能?視覺語言與視頻生成模型的實證比較
研究論文提出了一項系統性的凍結特徵探測研究,旨在比較視覺語言模型(VLMs)和視頻生成模型(VGMs)在支持空間智能方面的表現。空間智能需要能夠捕捉物理世界中語義物體和幾何結構的視覺表示,而這兩種模型作為基礎骨幹被廣泛使用。論文探討了三個代表性的空間智能軸線:語義標記、實例分組和3D幾何預測,通過輕量級探測框架進行控制比較。實驗結果顯示,VLMs在語義標記和實例分組任務上表現更強,而VGMs則在密集幾何預測和相機運動估計上提供了更易於解讀的信號。此外,研究發現,簡單融合兩種模型的特徵已經能夠產生在幾何和語義方面都表現出色的表示,這暗示了通過有效整合兩種模型家族的特徵來構建更強大空間智能基礎模型的潛力。相關代碼已在GitHub上公開發佈。
來源
來源:Hugging Face / 論文來源