返回事件流

τ_0-WM:用於機器人操作的統一視頻-動作世界模型

在 HuggingFace 論文平台上,一篇研究論文提出了 τ_0-WM,這是一個統一的視頻-動作世界模型,用於機器人操作。官方公告表示,該模型整合了策略學習、視頻預測和動作評估,在一個未來預測框架內運作。它基於共享的視頻擴散骨幹,提供兩個互補接口:一個是視頻動作模型,可以從多視角觀察、語言指令和機器人狀態中聯合預測未來視覺潛在和連續動作塊;另一個是動作條件視頻模擬器,可以將候選動作塊展開為多視角未來並預測密集的任務進度分數。模型使用約 27,300 小時的真實機器人遙操作、UMI 風格互動、第一人稱人類視頻以及展開或失敗軌跡進行訓練,並使用模態特定的監督遮罩。在推理時,τ_0-WM 利用測試時間計算來採樣動作候選,通過重新去噪一致性進行排名,並對低質量候選調用基於模擬器的修正。研究論文指出,在挑戰性的長時程和細粒度機器人操作任務中,τ_0-WM 相比其他相關基線展現出卓越的性能。

來源

來源:Hugging Face / 論文來源