研究06/04 14:35

WALL-WM：事件基於的世界動作建模新方法

研究論文提出 WALL-WM，這是一個創新的世界動作模型，旨在解決現有模型在塊中心優化中的根本粒度不匹配問題。傳統方法通常從多模態或視頻基礎模型初始化，並優化固定長度動作塊，導致語義目標、視覺動態和動作控制之間的協調困難。WALL-WM 通過將監督和數據組織在語義事件周圍來克服此挑戰，採用事件基於的視覺-語言-動作預訓練，以語義連貫的事件作為原子學習單元。它結合事件級字幕和集群平衡採樣，構建數據生態系統，使模型能夠學習多樣化的行為、場景和任務結構。在推理時，WALL-WM 支持兩種互補模式：事件模式允許基於下一事件描述進行可變長度執行，統一模式則使用帶有階梯解碼的視覺語言模型進行固定長度推理，同時保持梯度連續的路徑。基於 Muon 優化器的大規模預訓練基礎設施，WALL-WM 為通用世界動作模型提供了實用的擴展方案。實驗結果顯示，該模型在語言、場景和任務上具有廣泛的泛化能力，在大型真實世界評估中達到先進性能，標誌著動作建模領域的重要進展。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源WALL-WM: Carving World Action Modeling at the Event Joints