研究06/02 11:06

HakushoBench：來自政府白皮書的日語圖表與表格VQA基準

研究論文提出HakushoBench，一個基於政府白皮書的日語圖表與表格VQA基準，旨在評估視覺語言模型在文檔理解方面的能力。論文指出，雖然英語基準發展迅速，但非英語基準仍然稀缺，這使得視覺語言模型在多語言環境下的泛化能力尚不明確。為此，研究團隊利用政府白皮書作為可擴展的基準構建來源，因為這些文件包含多種格式和領域的圖表和表格，且在許多國家免費可得。HakushoBench作為首個實例，從33份政府白皮書中構建，包含2053張圖像，涵蓋超過10種圖像類型，並配有手動標註的問答對，旨在評估對圖表和表格的深度整體理解，而非僅僅局部視覺線索。實驗結果表明，HakushoBench對開源模型仍然具有挑戰性：最佳開源模型的準確率為58.6%，而開源模型與專有模型之間存在34.9分的差距，這突顯了在複雜圖表和表格理解方面仍有很大的改進空間。論文已發布其數據集和代碼，以促進進一步研究。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers