MMTIT-Bench: A Multilingual and Multi-Scenario Benchmark with Cognition-Perception-Reasoning Guided Text-Image Machine Translation¶
会议: CVPR 2026
arXiv: 2603.23896
代码: 无(计划发布 MMTIT-Bench)
领域: 多模态VLM / 机器翻译
关键词: 文字图像翻译, 多语言基准, 链式思考, 认知-感知-推理, VLLM评估
一句话总结¶
构建了覆盖 14 种非英非中语言的多语言多场景文字图像翻译基准 MMTIT-Bench,并提出 CPR-Trans 数据范式(认知→感知→翻译推理),在 3B 和 7B 模型上显著提升端到端翻译质量,7B 模型达到与 235B 模型竞争的性能。
研究背景与动机¶
- 领域现状:文字图像机器翻译(TIMT)旨在直接翻译图像中的文字内容。随着 VLLM 的发展,端到端 TIMT 取代了传统的 OCR+NMT 级联方案,但现有研究主要集中在英中对上,且多在数字文档等简单场景评估。
- 现有痛点:(1)缺乏覆盖多语言多场景的评估基准——现有数据集最多覆盖 4 种语言(MTIT6),且场景单一;(2)思维链(CoT)推理范式对 TIMT 的设计尚不成熟——现有方法要么级联 OCR 和翻译,要么仅做纯语言推理,忽略了视觉认知。
- 核心矛盾:VLLM 在高资源语言上表现良好,但对低资源语言和复杂视觉场景(菜单、海报、街景)的鲁棒性未知,且没有合适的基准来系统评估。
- 本文目标 (1)构建覆盖多语言多场景的 TIMT 基准;(2)设计适合 TIMT 的推理数据范式。
- 切入角度:模拟人类翻译过程——先理解场景(认知)→ 识别文字(感知)→ 推理翻译(推理),设计结构化的 CoT 监督。
- 核心 idea:用认知-感知-推理三阶段的结构化推理链来指导端到端文字图像翻译。
方法详解¶
整体框架¶
工作包含两部分:(1)MMTIT-Bench 基准构建——从 14 种语言收集图像,经 OCR 标注、翻译标注、人工过滤,最终得到 1400 个高质量样本;(2)CPR-Trans 数据范式——通过 VLLM 辅助生成认知、感知、翻译推理三阶段的结构化思维链数据,用于训练端到端 TIMT 模型。
关键设计¶
-
MMTIT-Bench 基准构建:
- 功能:提供多语言多场景的标准化 TIMT 评估平台
- 核心思路:(a)从 14 种语言人工收集约 14000 张含文字的真实图像(菜单、海报、文档等);(b)用 Gemini 2.5 Flash 辅助 OCR 标注 + 人工校验,支持 Markdown 表格和 LaTeX 公式;(c)多温度采样 + 三模型投票(Gemini、Seed1.6、Qwen3-VL)生成翻译;(d)每种语言精选 100 张(共 1400)经语言专家终审。每张图提供中英双语翻译。
- 设计动机:覆盖德、西、土、越、韩、马来、葡、俄、法、印尼、泰、意、日等 14 种语言,弥补现有基准的语言和场景覆盖不足。
-
CPR-Trans 数据范式:
- 功能:提供结构化、可解释的推理监督来提升翻译质量
- 核心思路:三阶段推理——
<cognition>阶段描述全局视觉场景(不识别文字),<perception>阶段分析文字区域的空间布局和阅读顺序,<trans>阶段整合视觉和文本理解进行翻译推理。全部推理链置于<think></think>标签内,最终翻译在<answer></answer>内。用 Qwen3-VL-235B 分阶段生成。 - 设计动机:Direct 翻译会丢失 OCR 感知(模型看不到自己的识别过程),Simple CoT 仅拼接 OCR 输出缺乏推理,原生 thinking 不可控且容易产生冗余反复。CPR-Trans 模拟人类翻译认知流程,提供精准监督。
-
双协议评估体系:
- 功能:从多角度全面评估翻译质量
- 核心思路:(a)VLLM 评判——使用 Gemini 2.5 Flash 和 Qwen3-VL-235B 从忠实度、流畅度、可读性、术语一致性四个维度打分;(b)规则指标——使用 COMET 自动评估。两种评估高度一致。
- 设计动机:VLLM 判官对齐人类判断但可能有偏差,传统指标客观但可能忽略语义质量。两者互补确保评估可靠性。
损失函数 / 训练策略¶
- 训练数据:12600 人工标注样本 + 70000 SynthDog 合成样本,共 165200 对齐多模态样本
- 以 Qwen2.5-VL-3B 和 7B 为基座模型进行 SFT
- CPR-Trans 推理链由 Qwen3-VL-235B 分阶段生成
实验关键数据¶
主实验¶
MMTIT-Bench 上各模型表现(Gemini-Flash Judge,other→en / other→zh):
| 模型 | 参数 | Think | other2en | other2zh |
|---|---|---|---|---|
| Cascade (MinerU+Qwen3) | - | - | 48.32 | 49.70 |
| Qwen3-VL-Instruct | 235B | - | 64.39 | 69.67 |
| Qwen3-VL-Thinking | 235B | ✓ | 73.81 | 77.90 |
| Gemini 2.5 Flash | - | ✓ | 82.94 | 85.00 |
| Qwen2.5-VL + CPR-Trans | 7B | ✓ | 83.98 | 82.84 |
7B 模型 + CPR-Trans 在 other→en 上超越 Gemini 2.5 Flash!
消融实验¶
不同数据范式对比(7B 模型,Gemini-Flash Judge):
| 范式 | other2en | other2zh | 说明 |
|---|---|---|---|
| Origin (无微调) | 53.98 | 46.89 | 基线 |
| Direct (直接翻译) | 68.40 | 62.42 | 丢失感知能力 |
| Simple CoT (OCR+翻译) | 74.65 | 71.03 | 缺乏推理 |
| Distillation (VLLM) | 71.90 | 69.91 | 原生思维链 |
| CPR-Trans | 83.98 | 82.84 | 结构化推理最优 |
推理组件消融(7B,Gemini judge other2en):
| Cognition | Perception | Trans | 得分 |
|---|---|---|---|
| - | - | - | 74.65 (baseline) |
| ✓ | - | - | 76.91 |
| - | - | ✓ | 80.73 |
| ✓ | - | ✓ | 82.11 |
| - | ✓ | ✓ | 81.90 |
| ✓ | ✓ | ✓ | 83.98 |
关键发现¶
- 翻译推理(Trans)贡献最大(+6.08 vs baseline),说明显式的翻译推理过程是性能提升的核心
- 认知组件单独加入可提升 +2.26,说明理解全局场景有助于翻译消歧
- 感知组件单独加入几乎无效(+0.22↓),但与其他组件组合后贡献明显——它的价值在于为推理提供结构化的文字信息
- Thinking 模式一致优于非 thinking 模式(同一模型家族内),证实了显式推理对 TIMT 的重要性
- 级联方案(OCR+LLM)显著逊于端到端方案,error propagation 问题在复杂场景下尤为严重
亮点与洞察¶
- 小模型击败大模型:7B 的 CPR-Trans 模型在 other→en 方向上超越了 Gemini 2.5 Flash,说明高质量推理数据的价值可能超过模型规模的增长。这为资源受限场景提供了重要启示。
- 认知-感知-推理范式的通用性:这种将复杂任务分解为认知、感知、推理三阶段的数据构建方法不仅适用于 TIMT,还可以迁移到文档理解、OCR 纠错等需要视觉-语言联合推理的任务。
- 基准构建方法论:多模型投票 + 人工终审的标注流程,以及 VLLM 判官 + 规则指标的双轨评估,为未来多模态基准构建提供了范本。
局限与展望¶
- 14 种语言中仍以中高资源语言为主,缺乏真正低资源语言(如缅甸语、斯瓦希里语)
- 每种语言仅 100 个测试样本,统计显著性可能不足
- CPR-Trans 推理链依赖 235B 模型生成,数据质量受限于教师模型能力
- 未探索 RL 微调(如 GRPO/DPO)来进一步提升推理质量
- 合成数据(SynthDog)与真实场景存在域偏移
相关工作与启发¶
- vs MTIT6: 覆盖 4 种语言的 1200 样本,MMTIT-Bench 扩展到 14 种语言 1400 样本,且涵盖更多场景类型和更长的平均文本(160 words vs 7 words)。
- vs DoTA/PATIMT: 仅关注英中文档翻译。MMTIT-Bench 的多场景设计(菜单、海报、景点)更贴近真实使用场景。
- vs R1-style thinking: 原生长 CoT 推理虽然有效,但不可控且容易产生冗余。CPR-Trans 的结构化设计提供精确指导,避免"循环反思"问题。
评分¶
- 新颖性: ⭐⭐⭐⭐ CPR-Trans 范式设计精巧,基准构建流程完善,但核心思想(结构化 CoT)并非全新
- 实验充分度: ⭐⭐⭐⭐ 广泛的模型评估和详细的消融分析,但缺少跨语言的细粒度分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表信息量大,但基准和方法两部分各占半篇略显拥挤
- 价值: ⭐⭐⭐⭐ 填补了多语言 TIMT 评估空白,CPR-Trans 范式有广泛迁移价值
相关论文¶
- [CVPR 2026] SEA-Vision: A Multilingual Benchmark for Document and Scene Text Understanding in Southeast Asia
- [ACL 2025] CruxEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution
- [ACL 2025] Exploring In-Image Machine Translation with Real-World Background
- [ACL 2025] Multi-perspective Alignment for Increasing Naturalness in Neural Machine Translation
- [ACL 2025] THOR-MoE: Hierarchical Task-Guided and Context-Responsive Routing for Neural Machine Translation