ChartArena:跨語言、場景與格式的圖表解析基準測試
研究論文提出 ChartArena,一個專為評估圖表解析模型而設計的全面雙語基準測試。該基準測試涵蓋八種圖表家族,包括數值圖表和圖表結構如流程圖和心智圖,並在數字渲染、印刷照片和手繪照片三種視覺場景下進行評估。數據集透過人機協作標註流程構建,並經過多階段人類驗證以確保標註可靠性。為實現公平的跨模型比較,研究團隊設計了一種格式無關的評估協議,將異質輸出映射到兩個規範語義空間:歸一化三元組視圖和有向圖視圖,並使用結構感知指標進行評分。透過對 26 個領先的多模態大型語言模型(MLLMs)進行廣泛評估,研究觀察到三個一致的發現:首先,前沿私有模型如 Gemini 3.1 Pro 整體領先,但最強的開源系統正在迅速縮小差距;其次,文件解析模型在數值圖表上處理得相當合理,但在圖表結構上表現急劇下降;最後,專家圖表解析器仍限於窄的圖表家族。在所有模型中,雷達圖和手繪場景尤其具有挑戰性。這些發現顯示 ChartArena 能夠揭示明確的能力差距,並為未來進展提供統一基礎。ChartArena 已在 GitHub 上公開可用。
來源
來源:Hugging Face / 論文來源