RoboStressBench:VLM穩健性基準測試
研究論文提出RoboStressBench,這是一個針對具身場景中視覺語言模型(VLM)穩健性的基準測試。論文指出,VLM在視覺理解方面表現出色,並日益部署於具身AI系統中,但在真實條件下的可靠感知至關重要。然而,現有基準通常使用乾淨圖像或孤立擾動來評估VLM,而非物理場景形成的視覺應力,導致評估不全面,僅覆蓋日常視覺應力的一小部分,且部分擾動在真實場景中罕見。為解決此問題,論文從逆向圖形學視角出發,將視覺應力分解為四個物理維度:材質(M)、視角(V)、光照(L)和幾何(G),從而覆蓋廣泛的真實世界視覺應力,並允許受控分析其對VLM能力如視覺識別、推理和規劃的影響。通過對最先進VLM的全面評估,研究識別出應力特定的失敗模式,揭示不同物理因素如何降低具身能力,這些在聚合準確度中常被掩蓋。此外,論文引入一個應力感知的代理求解器,通過檢測視覺應力源並調用視覺編輯技能來提升推理能力,改善高應力場景下的穩健性。整體而言,RoboStressBench提供了一個有原則的評估框架,用於診斷和改進VLM在真實世界物理應力下的感知,支持更可靠的具身AI系統開發。
來源
來源:Hugging Face / 論文來源