MMTIT-Bench: Multilingual Multi-Scenario Text-Image Machine Translation¶

日期: 2026-03-25
arXiv: 2603.23896
代码: 无
领域: 多模态VLM / NLP
关键词: text-image translation, multilingual, benchmark, VLLM evaluation, cognition-perception-reasoning

一句话总结¶

MMTIT-Bench 是首个人工验证的端到端文本-图像机器翻译 benchmark，覆盖多语言和多视觉场景，通过认知-感知-推理三层评估体系系统测试 VLLM 在图像内文字翻译中的能力，揭示现有模型在低资源语言和复杂视觉场景下的重大不足。

研究背景与动机¶

领域现状：端到端文本-图像翻译（TIMT）——直接翻译图像中的文字而非先 OCR 再翻译——是跨语言场景理解的关键任务。VLLM 在此任务上有潜力但缺乏系统评估。
现有痛点：(a) 现有评估资源有限，覆盖语言和场景不全，多数只有英中翻译；(b) VLLM 在复杂视觉环境（弯曲文字、手写体、遮挡、低分辨率）和低资源语言下表现不明；(c) 缺乏区分认知、感知、推理三层能力的精细评估——不知模型在哪层失败
核心矛盾：TIMT 同时需要视觉感知（识别图中文字）和语言理解（准确翻译），现有评估混在一起
切入角度：不只给一个总分，而是分层诊断——认知（字符识别）→ 感知（布局理解）→ 推理（语义翻译）
核心 idea：三层评估框架——认知/感知/推理分层测试 + 多语言多场景全覆盖 + 人工验证保证质量

方法详解¶

Benchmark 设计¶

多语言覆盖：中、英、日、韩、阿拉伯语等多种语言，含低资源语言对
多场景覆盖：街景招牌、文档、产品包装、手写体、弯曲/变形文字、遮挡文字等
三层评估体系：
- 认知层：能否正确识别图中的文字字符（OCR 准确率）
- 感知层：能否理解文字的布局和上下文关系（空间理解）
- 推理层：能否正确完成跨语言语义翻译（翻译质量）
人工验证：所有标注和评估结果经人工校验确保质量，非纯自动化

评估方法¶

认知层用字符准确率（CER）和单词准确率（WER）
感知层用布局匹配度和空间关系保持率
推理层用 BLEU/COMET 翻译质量指标 + 人工评分
整体评估支持端到端和分层两种模式：端到端直接评估翻译输出质量，分层模式先单独测 OCR 再测翻译，定位瓶颈
难度分级：每个样本按视觉复杂度（清晰→模糊→变形→遮挡）和语言难度（高资源→低资源→混合语言）双维度标注难度等级
所有自动指标结果均有人工抽检验证，确保评估可靠性

实验关键数据¶

主实验¶

模型	认知层	感知层	推理层	整体
GPT-4V	好	好	好	最优
Qwen-VL	中	中	中	中
InternVL	中	中	中	中
专用 OCR+MT	好	差	好	中

按场景分析¶

场景	最优方法准确率	难度
标准文档	85%+	低
街景招牌	70%	中
弯曲/变形文字	55%	高
手写体	45%	极高

按语言分析¶

语言	翻译质量 BLEU	说明
中↔英	好	高资源
日↔英	中	中资源
阿拉伯↔英	差	低资源+RTL 布局

关键发现¶

三层评估揭示了失败的精确位置：大多数错误发生在认知层（OCR 识别错误）而非推理层
低资源语言的认知层是最大瓶颈——模型见过的训练数据太少
复杂视觉场景（弯曲、遮挡）中感知层退化最严重
端到端方法在简单场景优于 OCR+MT 流水线，复杂场景下反之——因为流水线的 OCR 模块更鲁棒
GPT-4V 在所有维度上领先，但在手写体和低资源语言上也显著退化

亮点与洞察¶

三层评估的诊断价值：能精确定位“识别不行还是翻译不行”，对模型改进方向有直接指导。实验发现大多数错误发生在认知层（OCR 识别错误）而非推理层，这个发现对资源分配有重要意义
首个人工验证的 TIMT benchmark：数据质量高于纯自动构建方案，人工标注+人工抽检双重保障
实用场景全覆盖：从文档到街景到手写，涵盖真实应用中的各种困难
对多语言 VLLM 开发的实际指导：优先提升低资源语言的 OCR 能力比优化翻译引擎更有效（因为瓶颈在认知层）
难度分级的双维度设计（视觉复杂度×语言难度）能更细致地分析模型在不同难度组合下的表现

局限性 / 可改进方向¶

数据规模相对有限，扩展更多语言对（如东南亚语言、印地语）
视频中的文字翻译未覆盖（动态字幕、滚动文字）
低资源语言的覆盖仍不够全面
评估指标以自动化度量（BLEU/COMET）为主，某些翻译的质量差异需要人工判定
未探索 prompt engineering 对 VLLM TIMT 性能的影响——不同 prompt 可能显著改变表现

评分¶

新颖性: ⭐⭐⭐⭐ TIMT benchmark + 三层评估是新贡献
实验充分度: ⭐⭐⭐⭐⭐ 多语言×多场景×多模型×三层×人工验证
写作质量: ⭐⭐⭐⭐ 评估体系清晰
价值: ⭐⭐⭐⭐ 对多语言视觉翻译研究有指导意义