MMTIT-Bench: A Multilingual and Multi-Scenario Benchmark with Cognition-Perception-Reasoning Guided Text-Image Machine Translation¶

会议: CVPR 2026
arXiv: 2603.23896
代码: 无（计划发布 MMTIT-Bench）
领域: 多模态VLM / 机器翻译
关键词: 文字图像翻译, 多语言基准, 链式思考, 认知-感知-推理, VLLM评估

一句话总结¶

构建了覆盖 14 种非英非中语言的多语言多场景文字图像翻译基准 MMTIT-Bench，并提出 CPR-Trans 数据范式（认知→感知→翻译推理），在 3B 和 7B 模型上显著提升端到端翻译质量，7B 模型达到与 235B 模型竞争的性能。

研究背景与动机¶

领域现状：文字图像机器翻译（TIMT）旨在直接翻译图像中的文字内容。随着 VLLM 的发展，端到端 TIMT 取代了传统的 OCR+NMT 级联方案，但现有研究主要集中在英中对上，且多在数字文档等简单场景评估。
现有痛点：（1）缺乏覆盖多语言多场景的评估基准——现有数据集最多覆盖 4 种语言（MTIT6），且场景单一；（2）思维链（CoT）推理范式对 TIMT 的设计尚不成熟——现有方法要么级联 OCR 和翻译，要么仅做纯语言推理，忽略了视觉认知。
核心矛盾：VLLM 在高资源语言上表现良好，但对低资源语言和复杂视觉场景（菜单、海报、街景）的鲁棒性未知，且没有合适的基准来系统评估。
本文目标 （1）构建覆盖多语言多场景的 TIMT 基准；（2）设计适合 TIMT 的推理数据范式。
切入角度：模拟人类翻译过程——先理解场景（认知）→ 识别文字（感知）→ 推理翻译（推理），设计结构化的 CoT 监督。
核心 idea：用认知-感知-推理三阶段的结构化推理链来指导端到端文字图像翻译。

方法详解¶

整体框架¶

工作包含两部分：（1）MMTIT-Bench 基准构建——从 14 种语言收集图像，经 OCR 标注、翻译标注、人工过滤，最终得到 1400 个高质量样本；（2）CPR-Trans 数据范式——通过 VLLM 辅助生成认知、感知、翻译推理三阶段的结构化思维链数据，用于训练端到端 TIMT 模型。

关键设计¶

MMTIT-Bench 基准构建:
- 功能：提供多语言多场景的标准化 TIMT 评估平台
- 核心思路：（a）从 14 种语言人工收集约 14000 张含文字的真实图像（菜单、海报、文档等）；（b）用 Gemini 2.5 Flash 辅助 OCR 标注 + 人工校验，支持 Markdown 表格和 LaTeX 公式；（c）多温度采样 + 三模型投票（Gemini、Seed1.6、Qwen3-VL）生成翻译；（d）每种语言精选 100 张（共 1400）经语言专家终审。每张图提供中英双语翻译。
- 设计动机：覆盖德、西、土、越、韩、马来、葡、俄、法、印尼、泰、意、日等 14 种语言，弥补现有基准的语言和场景覆盖不足。
CPR-Trans 数据范式:
- 功能：提供结构化、可解释的推理监督来提升翻译质量
- 核心思路：三阶段推理——<cognition> 阶段描述全局视觉场景（不识别文字），<perception> 阶段分析文字区域的空间布局和阅读顺序，<trans> 阶段整合视觉和文本理解进行翻译推理。全部推理链置于 <think></think> 标签内，最终翻译在 <answer></answer> 内。用 Qwen3-VL-235B 分阶段生成。
- 设计动机：Direct 翻译会丢失 OCR 感知（模型看不到自己的识别过程），Simple CoT 仅拼接 OCR 输出缺乏推理，原生 thinking 不可控且容易产生冗余反复。CPR-Trans 模拟人类翻译认知流程，提供精准监督。
双协议评估体系:
- 功能：从多角度全面评估翻译质量
- 核心思路：（a）VLLM 评判——使用 Gemini 2.5 Flash 和 Qwen3-VL-235B 从忠实度、流畅度、可读性、术语一致性四个维度打分；（b）规则指标——使用 COMET 自动评估。两种评估高度一致。
- 设计动机：VLLM 判官对齐人类判断但可能有偏差，传统指标客观但可能忽略语义质量。两者互补确保评估可靠性。

损失函数 / 训练策略¶

训练数据：12600 人工标注样本 + 70000 SynthDog 合成样本，共 165200 对齐多模态样本
以 Qwen2.5-VL-3B 和 7B 为基座模型进行 SFT
CPR-Trans 推理链由 Qwen3-VL-235B 分阶段生成

实验关键数据¶

主实验¶

MMTIT-Bench 上各模型表现（Gemini-Flash Judge，other→en / other→zh）：

模型	参数	Think	other2en	other2zh
Cascade (MinerU+Qwen3)	-	-	48.32	49.70
Qwen3-VL-Instruct	235B	-	64.39	69.67
Qwen3-VL-Thinking	235B	✓	73.81	77.90
Gemini 2.5 Flash	-	✓	82.94	85.00
Qwen2.5-VL + CPR-Trans	7B	✓	83.98	82.84

7B 模型 + CPR-Trans 在 other→en 上超越 Gemini 2.5 Flash！

消融实验¶

不同数据范式对比（7B 模型，Gemini-Flash Judge）：

范式	other2en	other2zh	说明
Origin (无微调)	53.98	46.89	基线
Direct (直接翻译)	68.40	62.42	丢失感知能力
Simple CoT (OCR+翻译)	74.65	71.03	缺乏推理
Distillation (VLLM)	71.90	69.91	原生思维链
CPR-Trans	83.98	82.84	结构化推理最优

推理组件消融（7B，Gemini judge other2en）：

Cognition	Perception	Trans	得分
-	-	-	74.65 (baseline)
✓	-	-	76.91
-	-	✓	80.73
✓	-	✓	82.11
-	✓	✓	81.90
✓	✓	✓	83.98

关键发现¶

翻译推理（Trans）贡献最大（+6.08 vs baseline），说明显式的翻译推理过程是性能提升的核心
认知组件单独加入可提升 +2.26，说明理解全局场景有助于翻译消歧
感知组件单独加入几乎无效（+0.22↓），但与其他组件组合后贡献明显——它的价值在于为推理提供结构化的文字信息
Thinking 模式一致优于非 thinking 模式（同一模型家族内），证实了显式推理对 TIMT 的重要性
级联方案（OCR+LLM）显著逊于端到端方案，error propagation 问题在复杂场景下尤为严重

亮点与洞察¶

小模型击败大模型：7B 的 CPR-Trans 模型在 other→en 方向上超越了 Gemini 2.5 Flash，说明高质量推理数据的价值可能超过模型规模的增长。这为资源受限场景提供了重要启示。
认知-感知-推理范式的通用性：这种将复杂任务分解为认知、感知、推理三阶段的数据构建方法不仅适用于 TIMT，还可以迁移到文档理解、OCR 纠错等需要视觉-语言联合推理的任务。
基准构建方法论：多模型投票 + 人工终审的标注流程，以及 VLLM 判官 + 规则指标的双轨评估，为未来多模态基准构建提供了范本。

局限与展望¶

14 种语言中仍以中高资源语言为主，缺乏真正低资源语言（如缅甸语、斯瓦希里语）
每种语言仅 100 个测试样本，统计显著性可能不足
CPR-Trans 推理链依赖 235B 模型生成，数据质量受限于教师模型能力
未探索 RL 微调（如 GRPO/DPO）来进一步提升推理质量
合成数据（SynthDog）与真实场景存在域偏移

评分¶

新颖性: ⭐⭐⭐⭐ CPR-Trans 范式设计精巧，基准构建流程完善，但核心思想（结构化 CoT）并非全新
实验充分度: ⭐⭐⭐⭐ 广泛的模型评估和详细的消融分析，但缺少跨语言的细粒度分析
写作质量: ⭐⭐⭐⭐ 结构清晰，图表信息量大，但基准和方法两部分各占半篇略显拥挤
价值: ⭐⭐⭐⭐ 填补了多语言 TIMT 评估空白，CPR-Trans 范式有广泛迁移价值