幾何很重要:用於學習語義對應的 3D 基礎先驗
研究論文『Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence』指出,現有的自監督視覺模型和文本到圖像擴散模型所提取的基礎特徵,在語義對應估計任務上表現良好,但由於主要從 2D 圖像目標學習,缺乏明確的 3D 感知能力,常導致混淆物體的對稱側面、重複部分及在 3D 中結構相異但視覺相似的部分。為解決此問題,論文引入一個 3D-aware 後訓練框架,透過整合 3D 基礎模型的先驗知識來超越現有 2D 特徵。具體方法上,研究使用 SAM3D 來估計物體的幾何形狀和姿態,並通過渲染與比較的優化過程來細化姿態。隨後,基於估計的物體姿態,從重建的幾何結構中渲染 PartField 描述子到圖像平面,形成幾何感知特徵圖,以補充 DINO 和 Stable Diffusion 特徵。同時,利用重建形狀上的測地距離來可靠過濾候選對應點,過濾後的匹配對作為監督信號,用於訓練一個輕量級適配器,架設於 DINO 和 Stable Diffusion 之上。與先前需要姿態標註並依賴粗糙球面幾何的後訓練方法相比,此方法能自動獲取實例特定的 3D 結構,並以此指導對應學習。實驗結果顯示,該方法在語義對應上優於先前方法,同時減少了手動幾何監督的需求。論文的程式碼與模型已公開於 GitHub。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence