PlatonicNav:以柏拉圖拓撲地圖實現無訓練具身導航
研究論文探討具身視覺導航的挑戰,指出近期統一視覺語言導航和物體目標導航的嘗試僅停留在架構融合和大型視覺語言預訓練層面,未深入分析獨立訓練的視覺和語言編碼器是否共享語義結構。為此,論文擴展柏拉圖表示假設,提出 PlatonicNav 框架,一個無需訓練的系統。它利用自監督視覺編碼器生成柏拉圖拓撲地圖,融合幾何和語義節點距離,並通過盲匹配對齊語言目標,完全避免使用配對視覺語言數據。實驗在 HM3D-IIN、OVON 和 R2R-CE 等模擬基準上進行,並在 Unitree Go2 機器人上部署,結果顯示該框架能在不同任務、模態和具身中有效泛化。代碼已在 GitHub 發布,網站提供詳細資訊。
來源
來源:Hugging Face / 論文來源