研究06/03 24:44

VLMs驅動的可編輯Blender場景重建框架SEIG

研究論文提出，逆向圖形學是一個長期且高度不受約束的問題，旨在將圖像重建為可編輯的3D場景，以便進行渲染、重新打光和操作。本研究探討是否預訓練的視覺語言模型（VLMs）可以從單一圖片直接執行可執行的逆向圖形學，而無需依賴專門的2D或3D基礎模型、可微分渲染或多視圖監督。研究團隊引入了名為SEIG（階段性可執行逆向圖形學）的代理框架，通過逐步優化場景因素，包括幾何、材質、構成和光照，直接在可執行的Blender代碼空間中進行場景重建。實驗評估框架在多種場景下的重建指標，涵蓋像素級、感知和語義保真度。結果顯示，階段性重建顯著提高了重建保真度，強調了任務分解對於使用通用VLMs進行可執行逆向圖形學的重要性。最後，研究展示了重建的可編輯Blender場景所支持的各種下游應用。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models