返回事件流

RoboSemanticBench:診斷VLA模型動作預測語義基礎

研究論文提出RoboSemanticBench(RSB),這是一個具身基準測試,旨在診斷視覺-語言-動作(VLA)模型在動作預測中的語義 grounding。VLA模型基於預訓練語言或視覺-語言骨幹網的語義理解來引導機器人動作預測,但微調過程常優化為模仿特定任務的動作分佈,導致評估可能依賴視覺或指令-動作捷徑。RSB通過讓機器人接收多選數學或常識問題,觀察候選答案塊並抓取對應正確答案的塊,來測試模型是否能使用複雜指令語義選擇正確物理目標。測試涵蓋控制算術、小學數學理解和常識理解等情境。在代表性VLA模型中,研究發現許多策略學會抓取候選塊,但在控制抓取成功後,選擇語義正確塊的比率接近隨機或低於隨機,這揭示了骨幹網級語義能力與動作預測之間的持續差距。HuggingFace上發布的這篇論文為評估VLA模型的語義理解提供了新診斷工具。

來源

來源:Hugging Face / 論文來源