MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering¶

会议: ACL 2025
arXiv: 2405.11985
代码: 有
领域: 多模态 VLM / 视觉问答
关键词: 多语言VQA, 文本中心视觉问答, MLLM评估, 低资源语言, 基准数据集

一句话总结¶

构建了 MTVQA——首个覆盖 9 种语言的多语言文本中心视觉问答基准，通过人类专家标注解决翻译方法的"视觉-文本不对齐"问题，评估显示最佳 MLLM（InternVL-2.5，32.2%）与人类表现（79.7%）差距巨大，揭示了多语言文本理解的严峻挑战。

文本中心视觉问答（TEC-VQA）是评估 AI 在文本丰富场景中理解能力的重要代理任务，但目前存在两个核心痛点：

语言覆盖偏差：现有 TEC-VQA 基准几乎只关注英文和中文等高资源语言，低资源语言（阿拉伯语、泰语、越南语等）被严重忽视

翻译方案的根本缺陷：之前的多语言 VQA 工作（xGQA、MaXM）通过翻译引擎扩展问答对，但在 TEC-VQA 场景下产生严重的"视觉-文本不对齐"问题——翻译只处理了问答文本，忽略了图像中的视觉文本

举例来说，一张俄语菜单的图片，翻译引擎可能错误翻译菜名，导致问答对与图像中实际显示的文字不一致。这种不对齐在一般 VQA 中不是问题（因为问答不依赖图中文字），但在 TEC-VQA 中是致命的。

MTVQA 的构建遵循三个阶段：（1）多源文本丰富图像采集；（2）两轮人类专家标注（maker-checker 范式）；（3）大规模 MLLM 基准测试。

图像采集与清洗：
- 来源三方面：公开数据集（ICDAR MLT19 等，30%）、网络爬取（Common Crawl，20%）、实地拍摄（50%）
- 实地拍摄在各语言所在国家/地区完成，确保图像的原生性和高质量
- 多语言 OCR 引擎筛选含文本的图像，算法过滤敏感/不良内容
- 覆盖 20+ 细粒度场景：菜单、地图、账单、PPT、论文等
- 最终 2,116 张测试图 + 6,678 张训练图
两轮人类专家标注：
- 标注员资质：母语使用 10 年以上 + 大学学历以上
- 第一轮（生成）：每张图由 3 个标注员生成 5 个问答对，前 3 个要求直接阅读图中文字回答，后 2 个要求对图中文字进行推理
- 第二轮（校验）：另一组 2 个标注员独立审核每个问答对的相关性、准确性、简洁性和伦理性
- 10% 抽样检查质量，不合格返回重标
- 这种设计成本高（约 90,000 美元，历时 5 个月），但确保了标注质量
9 种语言覆盖：
- 阿拉伯语(AR)、韩语(KO)、日语(JA)、泰语(TH)、越南语(VI)、俄语(RU)、法语(FR)、德语(DE)、意大利语(IT)
- 涵盖了多种文字系统（阿拉伯文、韩文、日文、泰文、拉丁文、西里尔文）
- 最终数据：28,607 个问答对，8,794 张图

维度	发现
人类 vs 最佳 MLLM	79.7% vs 32.2%，差距 47.5%，巨大提升空间
拉丁字母语言 vs 非拉丁	DE/FR/IT 普遍高于 AR/JA/TH/RU，因训练数据偏差
文本专用 vs 通用 MLLM	TextMonkey(9.9%) < MiniCPM(17.3%) < InternVL(32.2%)，文本专用模型因只关注英中而落后
OCR+GPT-4 vs GPT-4V	21.6% vs 22.0%，各有优劣
OCR+GPT-4V	28.3%，最佳组合
指令微调提升	Xcomposer-4KHD: 11.2% → 19.7%（+8.5%）