MMBench: Is Your Multi-modal Model an All-Around Player?¶
会议: ECCV2024 arXiv: 2307.06281 代码: VLMEvalKit 领域: multimodal_vlm 关键词: VLM benchmark, multi-modal evaluation, CircularEval, choice extraction, bilingual benchmark
一句话总结¶
提出 MMBench——一个包含 3217 道多选题、覆盖 20 个细粒度能力维度的双语(英/中)视觉语言模型评测基准,并设计了 CircularEval 循环评测策略和基于 LLM 的选项提取机制,显著提升了评测的鲁棒性和公平性。
背景与动机¶
大型视觉语言模型(VLM)近年进展迅猛,但缺乏系统、可靠的定量评测手段:
- 传统客观基准(VQAv2、COCO Caption 等)存在「假阴性」问题——预测 "bicycle" 而标准答案是 "bike" 就判错;且只能评测单一任务,无法给出细粒度能力画像
- 主观评测(OwlEval、LVLM-eHub)依赖人工标注,成本高、偏差大、不可扩展、难以复现
- 不同 VLM 的指令跟随能力参差不齐,许多模型无法直接输出选项标签(A/B/C/D),导致精确匹配式评测严重低估其真实能力
因此需要一个设计系统、评测鲁棒、能力覆盖全面的客观基准。
核心问题¶
- 如何构建一个能力覆盖全面且数据质量可控的 VLM 评测基准?
- 如何解决不同 VLM 指令跟随能力差异带来的选项提取困难?
- 如何消除多选题评测中模型随机猜测和选项偏好带来的偏差?
方法详解¶
1. 层次化能力体系¶
MMBench 设计了三级能力分类体系:
- L-1(2 类):Perception(感知)、Reasoning(推理)
- L-2(6 类):Coarse Perception (CP)、Fine-grained Perception - Single Instance (FP-S)、Fine-grained Perception - Cross Instance (FP-C)、Attribute Reasoning (AR)、Logic Reasoning (LR)、Relation Reasoning (RR)
- L-3(20 类):涵盖物体定位、动作识别、空间关系、社交推理等细粒度能力
每个 L-3 能力至少包含 125 道题,保持均衡分布。
2. 数据收集与质量控制¶
- 来源:超过 80% 的题目从互联网收集,其余约 20% 基于公开数据集验证集构造
- 纯文本过滤:用多个 SOTA LLM(GPT-4、Gemini-Pro 等)仅凭文本推理,若超过半数答对则移除该题(说明无需图像即可作答,不适合评测多模态能力)
- 错误样本过滤:将所有题目送入多个 SOTA VLM,若所有模型均答错,则人工复查并移除确实有误的样本
- 双语版本:基于 GPT-4 翻译为中文,保留专有名词,并经人工校验→ MMBench-CN
3. LLM 辅助选项提取¶
针对 VLM 自由文本输出无法直接匹配选项的问题,设计两步提取流程:
- Step 1(启发式匹配):尝试从模型输出中直接提取选项标签 A/B/C/D
- Step 2(LLM 提取):若 Step 1 失败,将题目、选项和模型输出一同发给 GPT-4,让其判断模型预测最匹配哪个选项
- GPT-4 作为选项提取器与人工标注的对齐率达 91.5%,远高于 GPT-3.5-Turbo(约 85%)
4. CircularEval 循环评测策略¶
为消除多选题中随机猜测(4 选 1 有 25% 基线)和选项位置偏好带来的偏差:
- 对每道 \(N\) 选项的题目进行 \(N\) 次推理,每次对选项做循环移位(circular shift)
- 仅当模型在所有 \(N\) 次推理中都答对,才算答对该题
- 实际中模型一旦某次答错即可提前终止,计算开销低于 \(N\) 倍
- 效果:相比 VanillaEval(单次推理),CircularEval 普遍降低准确率 8–34 个百分点,能更有效地拉开模型间差距
实验关键数据¶
| 模型 | Overall | CP | FP-S | FP-C | AR | LR | RR |
|---|---|---|---|---|---|---|---|
| InternLM-XComposer2 | 78.1 | 80.4 | 83.5 | 73.0 | 83.7 | 63.6 | 74.4 |
| Qwen-VL-Max | 75.4 | 74.8 | 87.2 | 67.0 | 85.3 | 54.9 | 70.5 |
| GPT-4v | 74.3 | 77.6 | 73.8 | 71.5 | 85.3 | 63.6 | 68.6 |
| LLaVA-InternLM2-20B | 72.3 | 78.3 | 76.6 | 68.2 | 78.4 | 46.2 | 69.4 |
| Gemini-Pro-V | 70.2 | 70.0 | 78.9 | 65.9 | 82.9 | 46.2 | 65.9 |
| Yi-VL-34B | 68.4 | 72.0 | 78.0 | 54.7 | 81.2 | 38.6 | 68.2 |
| OpenFlamingo v2 | 2.3 | 1.1 | 3.5 | 1.5 | 5.3 | 0.0 | 2.7 |
关键发现:
- LLM 底座至关重要:同为 LLaVA 架构,将 LLM 从 Vicuna-7B 换成 InternLM2-20B,整体准确率从 63.4% 升至 72.3%,推理能力提升尤为显著
- 模型缩放有效:MiniGPT4 从 7B 到 13B 提升 8.3%,LLaVA v1.5 从 7B 到 13B 提升 3.5%
- 小模型潜力:MiniCPM-V(≤3B 参数)在 CircularEval 下仍达 61.4%
- 双语差距小:Top 模型在 MMBench 与 MMBench-CN 间的差距仅约 1–2%,InternLM-XComposer2 差距不足 1%
- 内容审查影响:GPT-4v 拒绝回答 1.8% 的测试(主要为名人识别),Gemini-Pro-V 拒答 1.6%
亮点¶
- CircularEval 设计巧妙:通过选项循环移位消除位置偏好和随机猜测,在可接受开销下大幅提升评测鲁棒性
- LLM 选项提取器:优雅地解决了不同 VLM 指令跟随能力差异的问题,与人工对齐率 91.5%
- 三级能力分类体系:20 个 L-3 能力维度提供细粒度诊断,可直接定位模型短板
- 质量控制流程系统:纯文本过滤 + 全模型答错过滤的双重机制,确保数据质量
- 双语对齐评测:英中两版完全对应,可公平比较 VLM 的跨语言能力
局限性 / 可改进方向¶
- 多选题格式本身有局限——无法评测开放式生成、多轮对话、长文本推理等能力
- 质量控制依赖 SOTA 模型,当所有模型都犯同样的错误时可能漏检
- CircularEval 对选项数敏感,2 选项和 4 选项的难度差异大
- 选项提取依赖 GPT-4 API,成本不低且存在 API 版本变化风险
- 評測维度虽覆盖 20 项但未涉及 OCR、图表理解、数学推理等近年热点能力
与相关工作的对比¶
| 基准 | 题数 | 能力维度 | 评测方式 | 双语 | 鲁棒性策略 |
|---|---|---|---|---|---|
| MMBench | 3217 | 20(三级) | 多选 + CircularEval | ✓ | CircularEval + LLM 提取 |
| MME | ~2400 | 14 | 是/否 | ✗ | 无 |
| OwlEval | 82 | 多种 | 主观/人工 | ✗ | 无 |
| SEED-Bench | 19K | 12 | 多选 | ✗ | 无 |
| VQAv2 | 1.1M | 单一 | 开放式 | ✗ | 精确匹配 |
相比 MME 的简单是非题,MMBench 的多选题更接近真实推理;相比 SEED-Bench 题量更大但缺乏鲁棒性策略,MMBench 用 CircularEval 保证评测可靠性。
启发与关联¶
- CircularEval 的「多次推理 + 一致性校验」思想可推广到其他多选式评测场景(如代码能力、数学推理基准)
- LLM 辅助选项提取为评测开放式模型提供了通用范式——不再要求模型严格遵循输出格式
- 论文指出 LLM 底座对 VLM 性能的决定性影响,启发后续研究应更关注语言模型本身的选择与对齐
- 评测代码集成在 VLMEvalKit 中,已成为后续 VLM 研究的标准评测工具
评分¶
- 新颖性: ⭐⭐⭐⭐ — CircularEval 和 LLM 选项提取器是有意义的方法创新
- 实验充分度: ⭐⭐⭐⭐⭐ — 评测 21 个 VLM,多维度分析,消融充分
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表丰富,动机论述充分
- 价值: ⭐⭐⭐⭐⭐ — 已成为 VLM 评测标配,VLMEvalKit 被广泛采用