研究06/04 24:37

τ_0-WM：用於機器人操作的統一視頻-動作世界模型

在 HuggingFace 論文平台上，一篇研究論文提出了 τ_0-WM，這是一個統一的視頻-動作世界模型，用於機器人操作。官方公告表示，該模型整合了策略學習、視頻預測和動作評估，在一個未來預測框架內運作。它基於共享的視頻擴散骨幹，提供兩個互補接口：一個是視頻動作模型，可以從多視角觀察、語言指令和機器人狀態中聯合預測未來視覺潛在和連續動作塊；另一個是動作條件視頻模擬器，可以將候選動作塊展開為多視角未來並預測密集的任務進度分數。模型使用約 27,300 小時的真實機器人遙操作、UMI 風格互動、第一人稱人類視頻以及展開或失敗軌跡進行訓練，並使用模態特定的監督遮罩。在推理時，τ_0-WM 利用測試時間計算來採樣動作候選，通過重新去噪一致性進行排名，並對低質量候選調用基於模擬器的修正。研究論文指出，在挑戰性的長時程和細粒度機器人操作任務中，τ_0-WM 相比其他相關基線展現出卓越的性能。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源τ_0-WM: A Unified Video-Action World Model for Robotic Manipulation