HakushoBench:來自政府白皮書的日語圖表與表格VQA基準
研究論文提出HakushoBench,一個基於政府白皮書的日語圖表與表格VQA基準,旨在評估視覺語言模型在文檔理解方面的能力。論文指出,雖然英語基準發展迅速,但非英語基準仍然稀缺,這使得視覺語言模型在多語言環境下的泛化能力尚不明確。為此,研究團隊利用政府白皮書作為可擴展的基準構建來源,因為這些文件包含多種格式和領域的圖表和表格,且在許多國家免費可得。HakushoBench作為首個實例,從33份政府白皮書中構建,包含2053張圖像,涵蓋超過10種圖像類型,並配有手動標註的問答對,旨在評估對圖表和表格的深度整體理解,而非僅僅局部視覺線索。實驗結果表明,HakushoBench對開源模型仍然具有挑戰性:最佳開源模型的準確率為58.6%,而開源模型與專有模型之間存在34.9分的差距,這突顯了在複雜圖表和表格理解方面仍有很大的改進空間。論文已發布其數據集和代碼,以促進進一步研究。
來源
來源:Hugging Face / 論文來源