WALL-WM:事件基於的世界動作建模新方法
研究論文提出 WALL-WM,這是一個創新的世界動作模型,旨在解決現有模型在塊中心優化中的根本粒度不匹配問題。傳統方法通常從多模態或視頻基礎模型初始化,並優化固定長度動作塊,導致語義目標、視覺動態和動作控制之間的協調困難。WALL-WM 通過將監督和數據組織在語義事件周圍來克服此挑戰,採用事件基於的視覺-語言-動作預訓練,以語義連貫的事件作為原子學習單元。它結合事件級字幕和集群平衡採樣,構建數據生態系統,使模型能夠學習多樣化的行為、場景和任務結構。在推理時,WALL-WM 支持兩種互補模式:事件模式允許基於下一事件描述進行可變長度執行,統一模式則使用帶有階梯解碼的視覺語言模型進行固定長度推理,同時保持梯度連續的路徑。基於 Muon 優化器的大規模預訓練基礎設施,WALL-WM 為通用世界動作模型提供了實用的擴展方案。實驗結果顯示,該模型在語言、場景和任務上具有廣泛的泛化能力,在大型真實世界評估中達到先進性能,標誌著動作建模領域的重要進展。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源WALL-WM: Carving World Action Modeling at the Event Joints