RayDer:可擴展的自監督新視角合成技術
研究論文提出 RayDer,一個創新性的統一前饋變換器架構,專門解決自監督新視角合成(NVS)的擴展難題。傳統上,自監督 NVS 因訓練真實影片數據時的不穩定性以及多網路系統設計的複雜擴展特性而受限。RayDer 透過將相機參數估計、三維場景重建及最終渲染整合至單一變換器骨幹中,成功將此問題簡化為一個良定義的單模型擴展問題。該模型採用最小動態狀態來處理影片中的時變內容,如移動物體,從而允許在真實世界影片上進行穩健訓練。值得注意的是,RayDer 的核心目標仍是靜態場景的 NVS,動態元素僅作為監督信號來源,而非重建對象。實驗結果顯示,在不同模型規模和數據量下,RayDer 能呈現出潔淨的冪律擴展趨勢,且在多個公開基準測試中,其零樣本開放集性能足以媲美現有的監督式方法,標誌著自監督視覺合成技術的重要進展。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video