研究06/03 24:47

ChartArena：跨語言、場景與格式的圖表解析基準測試

研究論文提出 ChartArena，一個專為評估圖表解析模型而設計的全面雙語基準測試。該基準測試涵蓋八種圖表家族，包括數值圖表和圖表結構如流程圖和心智圖，並在數字渲染、印刷照片和手繪照片三種視覺場景下進行評估。數據集透過人機協作標註流程構建，並經過多階段人類驗證以確保標註可靠性。為實現公平的跨模型比較，研究團隊設計了一種格式無關的評估協議，將異質輸出映射到兩個規範語義空間：歸一化三元組視圖和有向圖視圖，並使用結構感知指標進行評分。透過對 26 個領先的多模態大型語言模型（MLLMs）進行廣泛評估，研究觀察到三個一致的發現：首先，前沿私有模型如 Gemini 3.1 Pro 整體領先，但最強的開源系統正在迅速縮小差距；其次，文件解析模型在數值圖表上處理得相當合理，但在圖表結構上表現急劇下降；最後，專家圖表解析器仍限於窄的圖表家族。在所有模型中，雷達圖和手繪場景尤其具有挑戰性。這些發現顯示 ChartArena 能夠揭示明確的能力差距，並為未來進展提供統一基礎。ChartArena 已在 GitHub 上公開可用。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats