MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark¶

会议: ACL 2025
arXiv: 2409.02813
代码: 无
领域: 多模态VLM

一句话总结¶

提出 MMMU-Pro 基准，通过过滤纯文本可解题目、扩增选项至 10 个、引入 vision-only 输入设置三步法，构建更鲁棒的多学科多模态理解评测，所有模型性能显著下降 16.8%-26.9%。

研究背景与动机¶

GPT-4o 等模型在 MMMU 上已达 69.1%，但高分是否真正反映深度多模态理解存疑
发现部分 MMMU 问题可被纯文本 LLM 正确回答——模型可能利用文本中的捷径或先验知识
4 选项的多选题格式限制了评估力度，模型可通过排除法或猜测获得虚高分数
现实中用户常以截图方式向 AI 提问，但现有 benchmark 都将文本和图片分开输入
人类可以无缝地在视觉和文本信息间切换理解，这一核心认知能力未被现有 benchmark 充分测试
需要一个更接近真实场景、能揭示模型真实多模态能力的评测基准

方法详解¶

整体框架¶

基于 MMMU 进行三步构建：过滤 → 扩增选项 → vision-only 设置，最终得到 3,460 道题。

关键设计¶

Step 1: 过滤纯文本可解题目 - 使用 4 个强开源 LLM（Llama3-70B, Qwen2-72B, Yi-1.5-34B, Mixtral-8×22B）无图回答 - 每模型重复 10 次，正确率 >5/10 判定为可回答 - 至少 3/4 模型可答的题目被排除，从剩余池中均匀采样 1800 题（30科目×60题）

Step 2: 扩增候选选项 - 将原始 4 个选项扩增至 10 个，由 GPT-4o 生成 + Claude 3.5 过滤 + 两轮人工审核 - 人工专家同时检查题目与图片的相关性，剔除 70 道不连贯题目，最终 1730 题

Step 3: Vision-only 输入设置 - 人工标注者在不同背景、字体、字号的模拟显示环境中截取题目截图或拍照 - 模型仅接收图片输入、不显式接收文本，测试"同时看和读"的能力 - 共 1730 张截图/照片，与标准版配对生成 3,460 题

评估方式¶

MMMU-Pro 总分 = Standard(10选项) 与 Vision-only 的平均
同时测试 Direct 和 CoT prompt，报告较高分

实验关键数据¶

主要性能下降（相比 MMMU Val）¶

模型	Standard(4选项)	Standard(10选项)	Vision-only	MMMU Val	Δ₁	Δ₂
GPT-4o	64.7	54.0	49.7	69.1	-15.1	-19.4
Claude 3.5 Sonnet	63.7	55.0	48.0	68.3	-13.3	-20.3
Gemini 1.5 Pro	60.6	49.4	44.4	65.8	-16.4	-21.4
InternVL2-76B	55.0	41.9	38.0	58.3	-16.4	-20.3

消融与分析¶

分析维度	关键发现
4→10选项	GPT-4o 降10.7%，有效减少猜测
Vision-only	GPT-4o 再降4.3%，LLaVA-OV-72B降14.0%
CoT 效果	Claude 3.5 在Standard上提升12.3%（42.7→55.0），但部分模型反降
OCR prompt	对大多数模型影响<1%，说明强模型已内置文字识别能力

人类专家表现¶

低/中/高水平专家在 MMMU-Pro 上分别约 73.0%/80.8%/85.4%
相比 MMMU Val 仅降 1.8%-3.2%，远小于模型的 13-27% 下降

CoT 在不同学科的效果¶

Tech & Engineering 提升最大（GPT-4o +14.49%）
Art & Design 几乎无效甚至下降（LLaVA-OV-72B -17.12%）
提示 CoT 在需结构化推理的领域更有效

亮点与洞察¶

三步构建法系统有效: 每一步都有数据验证，纯文本模型准确率从约 30% 降至约 12%
Vision-only 设置的洞察: 简单 OCR 不够，模型需理解文本与图像的上下文关系，整体视觉复杂度显著增加
排名洗牌现象: MMMU → MMMU-Pro 存在明显排名变化，部分模型在 vision-only 上剧烈下降，暴露视觉理解短板
人机差距拉大: 人类在增强版测试上表现稳健（降幅 <3.2%），而模型降幅 13-27%，gap 被放大

局限性¶

仍然基于 MMMU 原始题库，新颖性和多样性受限于源数据集
OCR accuracy 评估仅用 Levenshtein distance，可能无法捕获语义级别的理解差异
Vision-only 截图由人工拍摄制作，标注成本高且难以大规模扩展
人类专家表现为估算而非重新评测
10 选项可能引入部分不合理的干扰项

评分¶

新颖性: ★★★★☆ — Vision-only 设置和系统化三步去偏方法设计新颖
技术深度: ★★★☆☆ — 更偏基准构建和评测分析，方法论创新有限
实验充分性: ★★★★★ — 覆盖 20+ 模型，多维度分析（CoT、OCR、学科、排名变化）
实用价值: ★★★★★ — 成为多模态模型评测的重要标准，已被广泛采用