🌐 多语言/翻译¶
📷 CVPR2026 · 2 篇论文解读
- MMTIT-Bench: A Multilingual and Multi-Scenario Benchmark with Cognition-Perception-Reasoning Guided Text-Image Machine Translation
-
构建了覆盖 14 种非英非中语言的多语言多场景文字图像翻译基准 MMTIT-Bench,并提出 CPR-Trans 数据范式(认知→感知→翻译推理),在 3B 和 7B 模型上显著提升端到端翻译质量,7B 模型达到与 235B 模型竞争的性能。
- SEA-Vision: A Multilingual Benchmark for Document and Scene Text Understanding in Southeast Asia
-
推出 SEA-Vision 基准,统一评估 11 种东南亚语言的文档解析(15,234 页)与文本中心 VQA(7,496 QA 对),通过重渲染策略消除多语言 VQA 的视觉-文本错位,揭示 MLLM 在低资源东南亚语言上存在 3–7 倍的严重性能退化。