研究06/02 11:06

RoboSemanticBench：診斷VLA模型動作預測語義基礎

研究論文提出RoboSemanticBench（RSB），這是一個具身基準測試，旨在診斷視覺-語言-動作（VLA）模型在動作預測中的語義 grounding。VLA模型基於預訓練語言或視覺-語言骨幹網的語義理解來引導機器人動作預測，但微調過程常優化為模仿特定任務的動作分佈，導致評估可能依賴視覺或指令-動作捷徑。RSB通過讓機器人接收多選數學或常識問題，觀察候選答案塊並抓取對應正確答案的塊，來測試模型是否能使用複雜指令語義選擇正確物理目標。測試涵蓋控制算術、小學數學理解和常識理解等情境。在代表性VLA模型中，研究發現許多策略學會抓取候選塊，但在控制抓取成功後，選擇語義正確塊的比率接近隨機或低於隨機，這揭示了骨幹網級語義能力與動作預測之間的持續差距。HuggingFace上發布的這篇論文為評估VLA模型的語義理解提供了新診斷工具。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models