MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios¶

会议: NeurIPS 2025
arXiv: 2505.21333
代码: https://mme-videoocr.github.io/
领域: 多模态VLM / 视频理解 / OCR评估
关键词: video OCR, benchmark, cross-frame understanding, language prior bias, multimodal LLM evaluation

一句话总结¶

提出 MME-VideoOCR，一个包含 25 个任务、44 个场景、1464 个视频和 2000 个人工标注 QA 对的视频 OCR 综合评估基准，涵盖文本识别、理解和推理三个层次。评估 18 个 SOTA MLLM 揭示最强模型（Gemini-2.5 Pro）仅达 73.7%，跨帧理解任务低至 25% 以下。

研究背景与动机¶

领域现状：MLLM 在静态图像 OCR 上已取得不错效果，但视频 OCR 面临运动模糊、时序变化、视觉特效等独特挑战，性能显著下降。
现有 benchmark 局限：
OCR Benchmark：仅 25 个视频、1 种任务类型，缺乏多样性
FG Bench：1028 个视频但使用自动+人工混合标注，仅 6 种任务
两者都偏重文字感知，忽视基于文字的理解和推理
视频 OCR 的三大挑战：
(1) 文字以多种形式出现（前景、背景、弹幕、水印等），需建立时空视觉-文本关联
(2) 关键文字信息分布在多帧中，需跨帧聚合和时序理解
(3) 任务复杂度上升时需对识别的文字进行推理

方法详解¶

任务体系（10 大类 25 个子任务）¶

文本识别：指定位置识别、指定属性识别
视觉文本问答：以文本为中心的 QA、翻译
文本定位：空间定位、时间定位
属性识别：颜色识别、命名实体识别、计数
变化检测与追踪：变化检测、文字追踪
特殊文本解析：表格/图表/文档/数学公式/手写体解析
跨帧文本理解：滚动文字理解、轨迹识别、乱序拼合
基于文本的推理：综合散布线索、识别隐含关系、解决歧义
基于文本的视频理解：字幕视频理解、多跳大海捞针
鲁棒性测试：AIGC 视频、长视频、对抗视频

数据构建¶

视频来源（三种途径）： - 从已有数据集（BOVText、RoadTextVQA 等）重构：GPT-4o 评估视觉动态+文字语义质量，通过筛选 - 人工从公开平台（YouTube、B站、快手）收集 - AI 生成（Wan 文生视频模型）：2000 短语→场景描述→视频生成→筛选

标注流程： - 人工标注（非模型标注）：每视频 3-4 个 QA 对 → 专家二轮筛选保留 1-2 个高质量对 - 专家验证：审查歧义问题、不准确答案、难度不足的问题 - 选项均匀分布 + 去偏测试

去偏测试：无视觉输入情况下模型仅凭文字先验的准确率应接近随机水平（Containment Match 0%、选择题 25.1%），验证排除知识泄露和文字先验偏差。

评估方式¶

包含匹配（Containment Match）：文本识别、手写识别任务
GPT 辅助评分：翻译等多答案任务
选择题：其他理解和推理任务

实验关键数据¶

主要结果（18 个模型）¶

模型	规模	TR	VTQA	TG	AR	CDT	STP	CFTU	TBR	TBVU	RVT	总分
Gemini-2.5 Pro	-	83.0	91.6	64.5	74.0	70.0	84.4	48.7	74.0	56.5	72.0	73.7
GPT-4o	-	83.3	81.6	60.5	74.7	51.5	68.0	30.7	60.7	59.0	75.3	66.4
Qwen2.5-VL	72B	80.7	80.0	65.0	74.0	56.5	79.6	26.7	74.7	57.0	78.7	69.0
InternVL3	78B	70.0	77.6	67.5	76.0	65.5	71.6	24.7	77.3	57.0	75.3	67.2
InternVL3	8B	61.3	72.0	60.0	69.3	56.5	62.4	23.3	57.3	55.0	71.3	59.8
LLaVA-OneVision	7B	42.0	50.0	49.0	54.0	41.0	46.4	20.0	45.3	52.0	60.0	46.0

细粒度任务分析（Top-5 模型）¶

任务	Gemini-2.5 Pro	Qwen2.5-VL 72B	InternVL3 78B	GPT-4o
轨迹识别	0.0%	0.0%	0.0%	0.0%
乱序拼合	76.0%	16.0%	4.0%	30.0%
多跳大海捞针	27.0%	18.0%	18.0%	25.0%
字幕视频理解	86.0%	96.0%	96.0%	93.0%
翻译	84.0%	66.0%	68.0%	70.0%

关键发现¶

跨帧理解是最大短板：Cross-Frame Text Understanding 大多数模型 <25%，所有 Top-5 模型在轨迹识别上均为 0%
分辨率和帧数至关重要：提高分辨率和帧数持续提升性能，但帧数从 32→64 时部分模型反而下降（注意力分散）
Token 压缩不适合 OCR：VideoChat-Flash、Slow-fast MLLM 等压缩方法在 OCR 任务上表现劣势
语言先验偏差严重：模型倾向将拼写错误"修正"为语义合理的词（如 "throuh" → "through"），而非忠实识别视觉内容
单帧 vs 跨帧差距悬殊：字幕理解（单帧信息）90%+ vs 多跳大海捞针（跨帧聚合）<30%，说明模型依赖少量帧而非真正整合时序信息
显著的 scaling 效应：Qwen2.5-VL 7B→72B 提升 10%+，InternVL3 8B→78B 提升 7%+

亮点¶

⭐⭐⭐⭐ 任务设计全面：25 个子任务覆盖感知→理解→推理完整链路，含跨帧理解和鲁棒性等创新维度
⭐⭐⭐⭐ 去偏设计严谨：去偏测试+选项均衡+多轮专家审核，排除文字先验和知识泄露
⭐⭐⭐⭐ 发现有价值：轨迹识别 0%、语言先验偏差、token 压缩缺陷等发现直接指导模型优化方向
⭐⭐⭐ 纯人工标注：区别于混合标注的 benchmark，质量更可控

局限性 / 可改进方向¶

总量 2000 QA 对，部分子类别样本数有限（如轨迹识别仅约 50 个），可能导致分数波动
主要覆盖中英双语，未包含更多语种
难度分层（易/中/难）设计中，前沿模型在易中难度上表现较好，需持续补充高难度样本
未评估模型的视频 OCR 微调后效果——该 benchmark 是否适合作为训练目标尚不清楚
对抗视频仅采用全黑帧插入策略，对抗形式较单一

总评¶

⭐⭐⭐⭐ 视频 OCR 领域急需的综合评估基准。任务设计维度丰富、标注质量高、去偏处理严谨。揭示的跨帧理解瓶颈和语言先验偏差等问题对 MLLM 优化具有直接指导意义。benchmark 的区分度和挑战性都很强。