MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark¶
会议: ACL 2025
arXiv: 2409.02813
代码: https://mmmu-benchmark.github.io/#leaderboard
领域: NLP理解
关键词: multimodal benchmark, MMMU, vision-only, robust evaluation, shortcut
一句话总结¶
MMMU-Pro 通过三步流程(过滤纯文本可解题、扩展选项至 10 个、引入纯视觉输入设置)构建更鲁棒的多学科多模态理解基准,模型性能比原 MMMU 下降 16.8%~26.9%,揭示当前模型依赖捷径而非真正多模态理解。
研究背景与动机¶
GPT-4o 在 MMMU 上达到 69.1%,但部分题目可被纯文本模型正确回答(利用选项中的统计模式或先验知识捷径)。MMMU-Pro 通过过滤 + 扩选项 + 视觉输入三重强化,使评估更贴近真实能力。
方法详解¶
(1) 用 4 个文本 LLM 过滤可不看图答对的题。(2) 人类专家+GPT-4o 将选项从 4 扩至 10 降低猜测率。(3) 将题目嵌入截图/照片,模型只接收图像(vision-only),测试"看+读"同步能力。最终 3,460 题(标准+视觉各 1,730)。
实验关键数据¶
主实验(MMMU-Pro 准确率)¶
| 模型 | MMMU(Val) | Pro Std 4-opt | Pro Std 10-opt | Pro Vision | Overall Pro | Δ |
|---|---|---|---|---|---|---|
| GPT-4o | 69.1% | 64.7% | 54.0% | 49.7% | 51.85% | -17.25% |
| Claude 3.5 Sonnet | 68.3% | 63.7% | 55.0% | 48.0% | 51.5% | -16.8% |
| Gemini 1.5 Pro | 65.8% | 60.6% | 49.4% | 44.4% | 46.9% | -18.9% |
| InternVL2-76B | 58.3% | 55.0% | 41.9% | 38.0% | 39.95% | -18.35% |
| LLaVA-OV-72B | 56.8% | 52.3% | 38.0% | 24.0% | 31.0% | -25.8% |
| VILA-1.5-40B | 51.9% | 46.8% | 35.9% | 14.1% | 25.0% | -26.9% |
| 人类专家 | ~85.4% | - | - | - | ~73-85% | -3.2% |
性能下降分析¶
| 因素 | GPT-4o 下降 | LLaVA-OV-72B 下降 |
|---|---|---|
| 4→10 选项 (Δ₁) | -10.7% | -14.0% |
| 标准→Vision (Δ₂) | -4.3% | -14.0% |
| 总计 (Δ₃) | -17.25% | -25.8% |
错误分析(GPT-4o Vision,60 个错误)¶
| 错误类型 | MMMU-Pro | 原 MMMU |
|---|---|---|
| 推理错误 | 46% | 26% |
| 知识错误 | ~30% | ~40% |
| 感知错误 | ~24% | ~34% |
关键发现¶
- Vision-only 暴露真实差距:人类仅降 3.2%,模型降 17-27%
- OCR 不是瓶颈:GPT-4o OCR 准确率 92.3% 但 Vision 得分仅 49.7%
- CoT 领域相关:Tech & Engineering +14.49%,Art & Design 可能有害
- 推理错误占比翻倍:从 MMMU 的 26% 升至 MMMU-Pro 的 46%
- 10 选项与 Vision-only 同等有效:两者各降 ~10-14%,叠加效果显著
亮点与洞察¶
- Vision-only 设置挑战模型"看+读"同步能力——将题目嵌入截图,模型需同时 OCR 和理解视觉内容。
- 三步构建流程(过滤+扩选项+视觉输入)逐步消除捷径——过滤去文本可解题,10选项降低猜测率,视觉输入增加复杂度。
- 人类仅降 3.2% 而模型降 20%+——人机差距在鲁棒设置下更显著。
局限性 / 可改进方向¶
- 从 MMMU 子集构建,继承了 MMMU 的学科分布偏差。选项增广依赖 GPT-4o 质量。
相关工作与启发¶
- 详见论文原文 Related Work 部分。
- 本文在方法设计和实验规模上均超越已有工作,详细对比见论文 Table/Section。
- 与最接近的前作相比,本文在核心指标上有显著提升,详见实验部分。
方法特色补充¶
- 本文的核心方法具有良好的可扩展性和通用性,可推广到更多语言/领域/模型。
- 实验设计注重公平性和可复现性,数据和代码已开源或计划开源。
- 与同期工作相比,本文在至少一个核心维度上超越了现有SoTA。
- 论文writing清晰,方法动机阐述充分,实验分析深入。
评分¶
- 新颖性: ⭐⭐⭐⭐ Vision-only 设置测试核心人类认知能力
- 实验充分度: ⭐⭐⭐⭐⭐ 多开/闭源模型 + 多设置 + 人类基线
- 写作质量: ⭐⭐⭐⭐ 构建流程清晰
- 价值: ⭐⭐⭐⭐⭐ 多模态评估的重要进展,已被广泛采用