返回事件流

透過寬基線匹配激發多模態大型語言模型的複雜空間推理

研究論文探討了在多模態大型語言模型中激發複雜空間推理的挑戰與解決方案。論文指出,寬基線匹配是測試MLLMs空間推理能力的有效方法,需要整合幾何理解、視角變化、細粒度感知和遮擋推理,但現有模型缺乏系統評估框架。為此,作者提出了ReasonMatch-Bench基準測試,該基準根據視角位移和匹配粒度分層,涵蓋室內、室外和物體中心場景。測試結果顯示,當前MLLMs在細粒度寬基線對應上表現欠佳,在一個90樣本的困難子集上,人類標註者獲得84.0 F1分數,而最佳現有基線僅為37.2。為了彌補這一性能差距,研究團隊開發了一個可擴展的數據生成管道,能從大規模影片和3D數據(如RGB-D影片和SfM重建)中自動提取寬基線視角對,提供多樣且可驗證的監督數據。此外,論文提出了動態對應強化學習方法,結合圖像級視角進展和點級對應課程,通過可驗證獎勵來改進WBM訓練,無需顯式的思維鏈監督。廣泛實驗表明,DCRL不僅顯著提升了ReasonMatch-Bench的表現,還能遷移到其他相關空間推理基準,同時維持一般視覺理解能力的適度進步。

來源:Hugging Face / 論文來源