MMBench: Is Your Multi-modal Model an All-Around Player?¶

会议: ECCV 2024
arXiv: 2307.06281
代码: https://github.com/open-compass/VLMEvalKit (有)
领域: 多模态VLM
关键词: VLM评测, 多选题基准, CircularEval, 双语评测, 能力维度

一句话总结¶

提出MMBench——一个系统设计的双语多模态评测基准，包含3000+多选题覆盖20个能力维度，并引入CircularEval策略和LLM辅助选项匹配，实现对VLM的鲁棒、细粒度评估。

研究背景与动机¶

领域现状：大型视觉语言模型（VLM）近年取得显著进展，GPT-4V、Gemini-Pro-V、LLaVA等展现了令人印象深刻的多模态感知与推理能力。
现有痛点：传统基准如VQAv2、COCO Caption虽然提供定量指标，但存在假阴性问题（如"bicycle"和"bike"不匹配），且缺乏细粒度能力分析；而主观评测如OwlEval依赖人工标注，不可扩展且存在显著偏差。
核心矛盾：客观评测缺乏全面性和细粒度，主观评测缺乏可复现性和可扩展性，两种方法都无法满足当前VLM评估的需求。
本文要解决什么：设计一个系统性的客观评测基准，能够对VLM进行鲁棒、全面且细粒度的评估。
切入角度：采用多选题形式统一评测框架，设计层次化能力分类体系，并引入LLM辅助选项提取和CircularEval策略解决评测鲁棒性问题。
核心idea一句话：通过精心设计的多选题基准、LLM辅助匹配和循环评估策略，实现对VLM的系统性、鲁棒性客观评测。

方法详解¶

整体框架¶

MMBench是一个系统设计的多模态客观评测基准，包含三个核心组件：(1) 层次化能力分类体系，将评测维度分为3级共20个叶子能力；(2) 精心策划的多选题数据集，覆盖多种来源和能力类型；(3) 鲁棒评测流程，结合LLM选项提取和CircularEval策略。

关键设计¶

1. 层次化能力分类体系 - 做什么：将VLM的能力组织为3级层次结构，L-1分为感知(Perception)和推理(Reasoning)，L-2有6个子能力，L-3有20个叶子能力 - 核心思路：参照人类认知的感知-推理二分框架，从粗到细定义评测维度 - 设计动机：细粒度分析可以精确定位VLM的强弱项，为后续优化提供方向指引

2. 数据收集与质量控制 - 做什么：收集3217道多选题，每道题包含图像、问题、选项和答案四元组 - 核心思路：通过志愿者从公共数据集和互联网收集，80%以上来自互联网，采用双重质量控制机制 - 设计动机：第一个机制用"多数投票"检测纯文本可解题目（若半数以上LLM仅凭文本就能答对则剔除）；第二个机制检测错误样本（若所有VLM都答错则人工审查）

3. LLM辅助选项提取 - 做什么：利用GPT-4将VLM的自由形式预测匹配到预定义选项 - 核心思路：先尝试启发式匹配提取选项标签，失败后调用GPT-4进行语义匹配 - 设计动机：不同VLM的指令遵循能力差异巨大（VisualGLM仅65%匹配率），GPT-4匹配与人类评估的一致率达91.5%

4. CircularEval策略 - 做什么：对每道题多次推理（打乱选项顺序），只有全部尝试都正确才算通过 - 核心思路：通过排列选项顺序，检验VLM是否真正理解问题而非猜测 - 设计动机：消除VLM对特定选项位置的偏好，使评测结果更鲁棒，更能体现模型间的性能差异

5. 双语版本(MMBench-CN) - 做什么：将英文版本通过GPT-4翻译为中文，人工校验 - 核心思路：保留专有名词和符号不翻译，确保中英对齐 - 设计动机：支持在双语环境下对VLM进行等价比较

损失函数 / 训练策略¶

MMBench本身是评测基准而非训练方法，不涉及训练损失。评测流程分为：(1) 开发集/测试集4:6划分；(2) 测试集答案保密，需提交到评测服务器获取结果；(3) 评测代码已集成到VLMEvalKit中。

实验关键数据¶

主实验¶

模型	整体 (test)	Perception	Reasoning
GPT-4v	77.0	78.5	73.6
Gemini-Pro-V	73.6	-	-
InternLM-XComposer-VL	74.4	-	-
LLaVA-v1.5-13B	67.7	-	-
mPLUG-Owl2	66.0	-	-
CogVLM-Chat	65.8	-	-
Qwen-VL-Chat	61.8	-	-

消融实验¶

评估方式	说明
启发式匹配	部分模型匹配率低至65%，导致评估不准确
+GPT-4匹配	与人类评测一致率91.5%，显著提升准确性
单次评估 vs CircularEval	CircularEval更鲁棒，能更有效区分模型间差异

关键发现¶

指令遵循能力与多模态理解能力并不相关——OpenFlamingo v2指令遵循最强但整体性能最差
选项分布分析显示VLM存在位置偏好：部分模型倾向于选择特定位置的选项
GPT-4V在大多数能力维度上领先，但在某些细粒度能力（如空间推理）上仍有提升空间
中英文版本的性能差异揭示了VLM的跨语言泛化能力差异

亮点与洞察¶

CircularEval设计巧妙：通过打乱选项排列检验模型是否真正理解，而非位置猜测，这在QA评测中是重要创新
质量控制的双重机制：纯文本可解检测+全错检测，确保了benchmark的有效性
LLM作为评测工具：用GPT-4做选项提取，开创了用LLM辅助VLM评测的范式
系统性评测思维：从数据收集、能力分类到评测策略的全链路设计，为后续评测基准提供了方法论参考

局限性 / 可改进方向¶

多选题形式本身有局限，无法评估开放式生成能力
依赖GPT-4进行选项匹配，引入了对商业模型的依赖
能力分类体系可能不够全面，未覆盖所有视觉语言能力
数据集规模虽大但仍有限，某些能力维度的样本可能不足以做出可靠结论
评测成本较高（CircularEval需要多次推理），大规模评测时间开销大

评分¶

新颖性: ⭐⭐⭐⭐ (CircularEval和LLM辅助匹配是重要创新)
技术深度: ⭐⭐⭐⭐ (评测方法论设计系统、严谨)
实验充分性: ⭐⭐⭐⭐⭐ (21个模型的全面评测，多维度分析)
写作质量: ⭐⭐⭐⭐ (结构清晰，论证充分)
影响力: ⭐⭐⭐⭐⭐ (已成为VLM评测的主要基准之一)