返回事件流

VLMs驅動的可編輯Blender場景重建框架SEIG

研究論文提出,逆向圖形學是一個長期且高度不受約束的問題,旨在將圖像重建為可編輯的3D場景,以便進行渲染、重新打光和操作。本研究探討是否預訓練的視覺語言模型(VLMs)可以從單一圖片直接執行可執行的逆向圖形學,而無需依賴專門的2D或3D基礎模型、可微分渲染或多視圖監督。研究團隊引入了名為SEIG(階段性可執行逆向圖形學)的代理框架,通過逐步優化場景因素,包括幾何、材質、構成和光照,直接在可執行的Blender代碼空間中進行場景重建。實驗評估框架在多種場景下的重建指標,涵蓋像素級、感知和語義保真度。結果顯示,階段性重建顯著提高了重建保真度,強調了任務分解對於使用通用VLMs進行可執行逆向圖形學的重要性。最後,研究展示了重建的可編輯Blender場景所支持的各種下游應用。

來源

來源:Hugging Face / 論文來源