研究05/31 17:54

ViGeo：一致的視訊幾何估計基礎模型

研究論文提出 ViGeo，這是一個用於從視訊序列中恢復空間密集且時間一致幾何資訊的前饋基礎模型。該模型基於簡單的變換器架構，無需任何任務特定的架構修改，因此能夠支持串流、全序列和長視訊推理。其核心創新在於動態分塊注意力機制，此機制在訓練階段同時暴露於雙向和因果時間上下文，並在測試時允許模型自適應調整注意力模式，無需重新訓練。此外，為了提升監督信號的質量，作者引入了一個基於完成的數據優化框架，訓練一個視訊深度完成教師模型，該模型以稀疏且帶有噪聲的標註為條件，並利用視訊或多視角上下文來生成密集、時間一致且幾何可靠的訓練目標。ViGeo 不僅預測深度和點圖，還能在同一框架下預測表面法線。通過僅使用公開數據集進行訓練，ViGeo 在多種任務中均達到最先進的性能，包括在線、離線和長視訊深度估計、表面法線估計以及視訊點圖估計。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Towards Consistent Video Geometry Estimation