MMVU: Measuring Expert-Level Multi-Discipline Video Understanding¶

会议: CVPR 2025
arXiv: 2501.12380
代码: https://github.com/yale-nlp/MMVU (有)
领域: 视频理解
关键词: 视频理解基准, 专家级推理, 多学科评测, 领域知识, 多模态基础模型

一句话总结¶

提出 MMVU 基准，包含 3,000 个专家标注的跨 27 个学科的视频理解题目，评估多模态基础模型在专业领域视频中的专家级知识推理能力，揭示即使最强模型仍显著落后于人类专家。

现有视频理解基准主要关注通用场景（动作识别、字幕生成等），缺乏对 专业领域专家级推理 的评估。然而，视频是许多专业领域（医疗、工程、科学研究）传递复杂动态信息的关键模态。例如分析化学反应视频，模型需要识别颜色变化等视觉线索并结合化学知识推理。

已有多学科基准（MMLU、MMMU 等）主要针对文本或图像，视频维度的专家级推理评测严重不足。唯一的相关工作 MMWorld 中仅 39.5% 的样本需要领域专业知识，且 76.4% 由 GPT-4V 自动生成。MMVU 通过完全人工从零标注、教科书引导的标注流程填补这一空白。

MMVU 构建分三阶段：(1) 前期准备——通过 133 名学生的用户研究确定 27 个学科，招募 67 名专家标注者；(2) 教科书引导的 QA 标注——标注者从教科书概念出发寻找 CC 许可视频并创建专家级问答；(3) 数据质量控制——包括基于时间的标注补偿和人工专家验证。

教科书引导的标注流程: 标注者先从教科书中识别关键概念（如实验流程、机械操作等），再搜索 YouTube 上符合 CC 许可的相关视频，最后设计需要领域知识和专家推理才能回答的问题。这确保了知识的广度（覆盖教科书各章节）和推理深度（需要专业推理而非简单视觉识别）。每个样本附带专家标注的 推理过程 和 相关领域知识（链接到 Wikipedia 页面），支撑细粒度分析。
严格的视频质量约束: 视频必须是视觉密集型，排除音频（防止语音捷径）、排除屏幕文字过多的内容（如讲座录像），确保模型必须通过视觉理解才能回答。每个样本经专家验证确认必须看视频才能回答——纯文本或仅靠单帧不可作答。
多层次人类基线评估: 设计三阶段人类评测——闭卷（3.5小时，平均49.7%）、开卷（可查资料，86.8%）、Oracle（给定正确领域知识后修改，95.3%），提供了对任务难度的精确标定。

本文是评测基准论文，不涉及模型训练。评估使用两种 prompt 策略：Direct Answer 和 Chain-of-Thought (CoT)。准确率评估由 GPT-4o 进行答案提取和判断。涵盖 32 个前沿多模态模型，包括16系列开源和8系列闭源模型。

模型	科学	医疗	人文社科	工程	测试集均值
人类 (开卷)	84.7	92.7	83.3	86.8	86.8
o1	78.0	76.0	74.0	79.0	77.0
Gemini 2.0 Flash Thinking	71.2	73.4	67.3	69.1	69.5
GPT-4o	71.8	72.0	61.6	67.4	66.7
Claude 3.5 Sonnet	64.0	70.9	64.5	65.2	64.1
Qwen2-VL-72B (开源最强)	53.6	61.7	53.9	53.0	53.2
人类 (闭卷)	54.7	42.7	44.7	56.7	49.7