研究05/31 17:55

幾何很重要：用於學習語義對應的 3D 基礎先驗

研究論文『Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence』指出，現有的自監督視覺模型和文本到圖像擴散模型所提取的基礎特徵，在語義對應估計任務上表現良好，但由於主要從 2D 圖像目標學習，缺乏明確的 3D 感知能力，常導致混淆物體的對稱側面、重複部分及在 3D 中結構相異但視覺相似的部分。為解決此問題，論文引入一個 3D-aware 後訓練框架，透過整合 3D 基礎模型的先驗知識來超越現有 2D 特徵。具體方法上，研究使用 SAM3D 來估計物體的幾何形狀和姿態，並通過渲染與比較的優化過程來細化姿態。隨後，基於估計的物體姿態，從重建的幾何結構中渲染 PartField 描述子到圖像平面，形成幾何感知特徵圖，以補充 DINO 和 Stable Diffusion 特徵。同時，利用重建形狀上的測地距離來可靠過濾候選對應點，過濾後的匹配對作為監督信號，用於訓練一個輕量級適配器，架設於 DINO 和 Stable Diffusion 之上。與先前需要姿態標註並依賴粗糙球面幾何的後訓練方法相比，此方法能自動獲取實例特定的 3D 結構，並以此指導對應學習。實驗結果顯示，該方法在語義對應上優於先前方法，同時減少了手動幾何監督的需求。論文的程式碼與模型已公開於 GitHub。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence