MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark¶

会议: ACL 2025
arXiv: 2409.02813
代码: https://mmmu-benchmark.github.io/#leaderboard
领域: NLP理解
关键词: multimodal benchmark, MMMU, vision-only, robust evaluation, shortcut

一句话总结¶

MMMU-Pro 通过三步流程（过滤纯文本可解题、扩展选项至 10 个、引入纯视觉输入设置）构建更鲁棒的多学科多模态理解基准，模型性能比原 MMMU 下降 16.8%~26.9%，揭示当前模型依赖捷径而非真正多模态理解。

研究背景与动机¶

GPT-4o 在 MMMU 上达到 69.1%，但部分题目可被纯文本模型正确回答（利用选项中的统计模式或先验知识捷径）。MMMU-Pro 通过过滤 + 扩选项 + 视觉输入三重强化，使评估更贴近真实能力。

方法详解¶

(1) 用 4 个文本 LLM 过滤可不看图答对的题。(2) 人类专家+GPT-4o 将选项从 4 扩至 10 降低猜测率。(3) 将题目嵌入截图/照片，模型只接收图像（vision-only），测试"看+读"同步能力。最终 3,460 题（标准+视觉各 1,730）。

实验关键数据¶

主实验（MMMU-Pro 准确率）¶

模型	MMMU(Val)	Pro Std 4-opt	Pro Std 10-opt	Pro Vision	Overall Pro	Δ
GPT-4o	69.1%	64.7%	54.0%	49.7%	51.85%	-17.25%
Claude 3.5 Sonnet	68.3%	63.7%	55.0%	48.0%	51.5%	-16.8%
Gemini 1.5 Pro	65.8%	60.6%	49.4%	44.4%	46.9%	-18.9%
InternVL2-76B	58.3%	55.0%	41.9%	38.0%	39.95%	-18.35%
LLaVA-OV-72B	56.8%	52.3%	38.0%	24.0%	31.0%	-25.8%
VILA-1.5-40B	51.9%	46.8%	35.9%	14.1%	25.0%	-26.9%
人类专家	~85.4%	-	-	-	~73-85%	-3.2%

性能下降分析¶

因素	GPT-4o 下降	LLaVA-OV-72B 下降
4→10 选项 (Δ₁)	-10.7%	-14.0%
标准→Vision (Δ₂)	-4.3%	-14.0%
总计 (Δ₃)	-17.25%	-25.8%

错误分析（GPT-4o Vision，60 个错误）¶

错误类型	MMMU-Pro	原 MMMU
推理错误	46%	26%
知识错误	~30%	~40%
感知错误	~24%	~34%

关键发现¶

Vision-only 暴露真实差距：人类仅降 3.2%，模型降 17-27%
OCR 不是瓶颈：GPT-4o OCR 准确率 92.3% 但 Vision 得分仅 49.7%
CoT 领域相关：Tech & Engineering +14.49%，Art & Design 可能有害
推理错误占比翻倍：从 MMMU 的 26% 升至 MMMU-Pro 的 46%
10 选项与 Vision-only 同等有效：两者各降 ~10-14%，叠加效果显著

亮点与洞察¶

Vision-only 设置挑战模型"看+读"同步能力——将题目嵌入截图，模型需同时 OCR 和理解视觉内容。
三步构建流程（过滤+扩选项+视觉输入）逐步消除捷径——过滤去文本可解题，10选项降低猜测率，视觉输入增加复杂度。
人类仅降 3.2% 而模型降 20%+——人机差距在鲁棒设置下更显著。

局限性 / 可改进方向¶

从 MMMU 子集构建，继承了 MMMU 的学科分布偏差。选项增广依赖 GPT-4o 质量。

评分¶

新颖性: ⭐⭐⭐⭐ Vision-only 设置测试核心人类认知能力
实验充分度: ⭐⭐⭐⭐⭐ 多开/闭源模型 + 多设置 + 人类基线
写作质量: ⭐⭐⭐⭐ 构建流程清晰
价值: ⭐⭐⭐⭐⭐ 多模态评估的重要进展，已被广泛采用