跳转至

MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

会议: ACL 2025
arXiv: 2409.02813
代码: https://mmmu-benchmark.github.io/#leaderboard
领域: NLP理解
关键词: multimodal benchmark, MMMU, vision-only, robust evaluation, shortcut

一句话总结

MMMU-Pro 通过三步流程(过滤纯文本可解题、扩展选项至 10 个、引入纯视觉输入设置)构建更鲁棒的多学科多模态理解基准,模型性能比原 MMMU 下降 16.8%~26.9%,揭示当前模型依赖捷径而非真正多模态理解。

研究背景与动机

GPT-4o 在 MMMU 上达到 69.1%,但部分题目可被纯文本模型正确回答(利用选项中的统计模式或先验知识捷径)。MMMU-Pro 通过过滤 + 扩选项 + 视觉输入三重强化,使评估更贴近真实能力。

方法详解

(1) 用 4 个文本 LLM 过滤可不看图答对的题。(2) 人类专家+GPT-4o 将选项从 4 扩至 10 降低猜测率。(3) 将题目嵌入截图/照片,模型只接收图像(vision-only),测试"看+读"同步能力。最终 3,460 题(标准+视觉各 1,730)。

实验关键数据

主实验(MMMU-Pro 准确率)

模型 MMMU(Val) Pro Std 4-opt Pro Std 10-opt Pro Vision Overall Pro Δ
GPT-4o 69.1% 64.7% 54.0% 49.7% 51.85% -17.25%
Claude 3.5 Sonnet 68.3% 63.7% 55.0% 48.0% 51.5% -16.8%
Gemini 1.5 Pro 65.8% 60.6% 49.4% 44.4% 46.9% -18.9%
InternVL2-76B 58.3% 55.0% 41.9% 38.0% 39.95% -18.35%
LLaVA-OV-72B 56.8% 52.3% 38.0% 24.0% 31.0% -25.8%
VILA-1.5-40B 51.9% 46.8% 35.9% 14.1% 25.0% -26.9%
人类专家 ~85.4% - - - ~73-85% -3.2%

性能下降分析

因素 GPT-4o 下降 LLaVA-OV-72B 下降
4→10 选项 (Δ₁) -10.7% -14.0%
标准→Vision (Δ₂) -4.3% -14.0%
总计 (Δ₃) -17.25% -25.8%

错误分析(GPT-4o Vision,60 个错误)

错误类型 MMMU-Pro 原 MMMU
推理错误 46% 26%
知识错误 ~30% ~40%
感知错误 ~24% ~34%

关键发现

  • Vision-only 暴露真实差距:人类仅降 3.2%,模型降 17-27%
  • OCR 不是瓶颈:GPT-4o OCR 准确率 92.3% 但 Vision 得分仅 49.7%
  • CoT 领域相关:Tech & Engineering +14.49%,Art & Design 可能有害
  • 推理错误占比翻倍:从 MMMU 的 26% 升至 MMMU-Pro 的 46%
  • 10 选项与 Vision-only 同等有效:两者各降 ~10-14%,叠加效果显著

亮点与洞察

  • Vision-only 设置挑战模型"看+读"同步能力——将题目嵌入截图,模型需同时 OCR 和理解视觉内容。
  • 三步构建流程(过滤+扩选项+视觉输入)逐步消除捷径——过滤去文本可解题,10选项降低猜测率,视觉输入增加复杂度。
  • 人类仅降 3.2% 而模型降 20%+——人机差距在鲁棒设置下更显著。

局限性 / 可改进方向

  • 从 MMMU 子集构建,继承了 MMMU 的学科分布偏差。选项增广依赖 GPT-4o 质量。

相关工作与启发

  • 详见论文原文 Related Work 部分。
  • 本文在方法设计和实验规模上均超越已有工作,详细对比见论文 Table/Section。
  • 与最接近的前作相比,本文在核心指标上有显著提升,详见实验部分。

方法特色补充

  • 本文的核心方法具有良好的可扩展性和通用性,可推广到更多语言/领域/模型。
  • 实验设计注重公平性和可复现性,数据和代码已开源或计划开源。
  • 与同期工作相比,本文在至少一个核心维度上超越了现有SoTA。
  • 论文writing清晰,方法动机阐述充分,实验分析深入。

评分

  • 新颖性: ⭐⭐⭐⭐ Vision-only 设置测试核心人类认知能力
  • 实验充分度: ⭐⭐⭐⭐⭐ 多开/闭源模型 + 多设置 + 人类基线
  • 写作质量: ⭐⭐⭐⭐ 构建流程清晰
  • 价值: ⭐⭐⭐⭐⭐ 多模态评估的重要进展,已被广泛采用