研究06/02 11:07

RoboStressBench：VLM穩健性基準測試

研究論文提出RoboStressBench，這是一個針對具身場景中視覺語言模型（VLM）穩健性的基準測試。論文指出，VLM在視覺理解方面表現出色，並日益部署於具身AI系統中，但在真實條件下的可靠感知至關重要。然而，現有基準通常使用乾淨圖像或孤立擾動來評估VLM，而非物理場景形成的視覺應力，導致評估不全面，僅覆蓋日常視覺應力的一小部分，且部分擾動在真實場景中罕見。為解決此問題，論文從逆向圖形學視角出發，將視覺應力分解為四個物理維度：材質（M）、視角（V）、光照（L）和幾何（G），從而覆蓋廣泛的真實世界視覺應力，並允許受控分析其對VLM能力如視覺識別、推理和規劃的影響。通過對最先進VLM的全面評估，研究識別出應力特定的失敗模式，揭示不同物理因素如何降低具身能力，這些在聚合準確度中常被掩蓋。此外，論文引入一個應力感知的代理求解器，通過檢測視覺應力源並調用視覺編輯技能來提升推理能力，改善高應力場景下的穩健性。整體而言，RoboStressBench提供了一個有原則的評估框架，用於診斷和改進VLM在真實世界物理應力下的感知，支持更可靠的具身AI系統開發。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes