研究05/31 17:52

為何遠方看似向上：探測視覺語言模型的空間表徵

研究論文提出，視覺語言模型（VLMs）在空間推理基準測試中表現優異，但其是否真正具備結構化三維理解仍存疑，可能依賴自然影像中的統計捷徑。本研究引入一個表徵層級的分析框架，構建最小對比對，以測量VLM嵌入中空間軸的組織與解纏情況。分析跨多個模型家族顯示，存在一致的垂直距離糾纏：模型將垂直影像位置與距離混淆，反映自然照片的透視偏差。此偏差導致透視一致與反直覺範例之間的準確度差距，並在數據擴展下加劇。研究進一步顯示，基準分數相似的模型可能具有不同的內部表徵，這些差異能預測多樣空間推理基準中的準確度與穩健性。為隔離評估集偏差，研究引入SpatialTunnel合成基準，旨在暴露空間捷徑偏差。實驗證實糾纏是模型內在的，且空間軸分離良好的模型展現更高穩健性，表明結構化的空間表徵能帶來更可靠的空间推理。代碼和基準可在專案頁面獲取。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Why Far Looks Up: Probing Spatial Representation in Vision-Language Models