為何遠方看似向上:探測視覺語言模型的空間表徵
研究論文提出,視覺語言模型(VLMs)在空間推理基準測試中表現優異,但其是否真正具備結構化三維理解仍存疑,可能依賴自然影像中的統計捷徑。本研究引入一個表徵層級的分析框架,構建最小對比對,以測量VLM嵌入中空間軸的組織與解纏情況。分析跨多個模型家族顯示,存在一致的垂直距離糾纏:模型將垂直影像位置與距離混淆,反映自然照片的透視偏差。此偏差導致透視一致與反直覺範例之間的準確度差距,並在數據擴展下加劇。研究進一步顯示,基準分數相似的模型可能具有不同的內部表徵,這些差異能預測多樣空間推理基準中的準確度與穩健性。為隔離評估集偏差,研究引入SpatialTunnel合成基準,旨在暴露空間捷徑偏差。實驗證實糾纏是模型內在的,且空間軸分離良好的模型展現更高穩健性,表明結構化的空間表徵能帶來更可靠的空间推理。代碼和基準可在專案頁面獲取。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源Why Far Looks Up: Probing Spatial Representation in Vision-Language Models