返回事件流

MIT 研究人員教導 AI 模型解讀圖表

媒體報導指出,麻省理工學院(MIT)與 MIT-IBM 計算研究實驗室的研究人員開發了一個名為 ChartNet 的多功能資源,專門設計用於教導視覺語言模型(VLMs)如何有效解讀圖表。他們使用了一種新穎的數據生成方法,建立了一個包含超過一百萬張多樣化圖表的數據集。該數據集編碼了圖表的視覺、語言和數字元素,使模型能夠進行穩健推理。研究人員使用 ChartNet 訓練了多個開源 VLMs,結果顯示許多較小的模型在數據提取和圖表摘要等任務上顯著優於規模更大的商業模型。這項研究旨在成為圖表理解的一站式資源,並推動研究人員用較小模型實現高性能,而無需大量計算資源。論文將在 IEEE 計算機視覺和模式識別會議上發表。根據報導,ChartNet 數據集不僅包含圖表圖像,還包括生成圖表的代碼、文本描述、數值表格和問答對,以教導模型連接和對齊不同資訊。此外,數據集中還有人類專家標註的圖表數據點,可用於微調現有模型,進一步提升特定應用的性能。測試顯示,使用 ChartNet 訓練的 IBM Granite Vision 系列模型及其他開源模型,在圖表解讀任務上的準確性均有提高。

來源:媒體報導