DynaFLIP:透過三模態動態引導表示重新思考機器人感知
研究論文提出 DynaFLIP,一個動態感知的多模態預訓練框架,旨在解決機器人感知中運動理解的問題。傳統機器人學習管道依賴於為靜態識別或視覺語言對齊預訓練的視覺編碼器,將運動理解留給下游策略。DynaFLIP 透過構建異質人和機器人視頻的圖像-語言-3D 流三元組,將運動理解上游整合到感知中。框架的核心思想是鼓勵三種模態在共享超球面空間中跨越一個小的單純形體積,較小的單純形體積表示更強的對齊。為避免幾何歧義和平凡崩潰,結合了單純形體積最小化與餘弦正則化器和對比目標。分析顯示 DynaFLIP 聚焦於控制相關區域,生成的動態感知表示可作為可重用視覺骨幹,在多種下游策略中一致優於基線,包括視覺語言動作模型。驗證涵蓋多種模擬和現實世界設置,在分佈外場景下增益達 +22.5%。結果表明,當視覺表示被訓練來編碼世界如何隨動作變化時,機器人泛化能力得到提升。
來源
來源:Hugging Face / 論文來源