AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models¶
会议: ACL 2025
arXiv: 2406.09295
代码: https://github.com/THUDM/AlignMMBench
领域: 多模态VLM / 评测基准
关键词: VLM评测, 中文多模态, alignment benchmark, CritiqueVLM, prompt鲁棒性
一句话总结¶
提出 AlignMMBench,首个面向中文视觉上下文的多模态对齐评测基准,涵盖 3 大类 13 项任务、1054 张图像和 4978 个 QA 对(含单轮/多轮对话),并训练了基于 ChatGLM3-6B 的评估器 CritiqueVLM,其评估一致性超过 GPT-4。
研究背景与动机¶
- 领域现状:VLM 在经过 SFT 和 RLHF 对齐训练后展现出强大的视觉理解能力。中文 VLM(QwenVL、CogVLM、InternVL 等)在公开排行榜上已接近 GPT-4o。
- 现有痛点:现有评测基准(MME、MMBench、MMMU 等)主要用是非题/选择题等非言语方式评估基础能力,缺乏对对齐性能(alignment)的细粒度开放式评估,更缺乏专门针对中文视觉场景的基准。
- 核心矛盾:中文多模态语料稀缺且标注困难(中文语境歧义性更强),需要多名标注者反复验证;中英文的图像特征和文化背景知识差异显著,仅靠英文数据集无法全面评估中文 VLM。
- 本文要解决什么? 构建高质量的中文多模态对齐评测基准,涵盖感知理解、推理分析和对话上下文三大维度,同时解决开放式题目评估困难的问题。
- 切入角度:从真实场景和互联网资源手动收集中文图像,设计 prompt 改写策略生成语义等价但表述不同的变体问题,并训练专用评估器替代 GPT-4。
- 核心idea一句话:用精心策划的中文视觉场景 + prompt 改写策略 + 规则校准的小型评估器,构建可复现、可控的中文多模态对齐评测体系。
方法详解¶
整体框架¶
AlignMMBench 包含三个核心组件: - 评测数据集:1054 张图像、4978 个 QA 对,覆盖 3 大类 13 项任务 - 评估器 CritiqueVLM:基于 ChatGLM3-6B 微调的自动评分模型 - Alignment Score 指标:衡量模型在不同 prompt 变体下的鲁棒性
关键设计¶
- 数据集构建 (3 类 13 任务):
- 做什么:覆盖感知理解(描述、识别、计数、OCR、记忆、知识)、推理分析(推理、图表、编程、比较、写作)和对话上下文(连贯/不连贯多轮对话)
- 构建流程:① 定义任务类型 → ② 爬虫从百度等中文网站收集图像 → ③ 人工过滤低质量图 → ④ 制作种子问题 → ⑤ LLM 改写生成语义等价变体 → ⑥ 人工标注参考答案 → ⑦ 两阶段质量审核
-
设计动机:中文多模态语料极其稀缺,无法像英文那样利用 VQAv2 等现有数据集,必须从零构建;对话上下文任务(特别是不连贯任务)评估 VLM 检测错误的能力,这是实际应用中的关键能力
-
Prompt 改写策略:
- 做什么:用 LLM 将每个种子问题改写为多个风格不同但语义等价的变体(最终从 1054 个种子扩展到 4978 个 QA 对)
- 核心思路:真实用户表达同一意图的方式多种多样,评估模型对不同表述的鲁棒性
-
设计动机:引入"alignment score"——模型在同一问题不同表述下的一致性,衡量对齐的稳定性
-
CritiqueVLM 评估器:
- 做什么:基于 ChatGLM3-6B 微调,输入问题+参考答案+模型回答,输出 1-10 分 + CoT 解释
- 核心思路:设计通用提示(评分范围、标准、格式)+ 任务特定提示(类别级别的评分要点),用人工标注的评分数据(含 CoT 解释)进行 SFT
- 训练细节:32 张 A800 GPU,batch_size=128,1000 轮迭代,loss 从 3.8 降到 0.3
-
设计动机:GPT-4 API 是黑盒、成本高且会更新导致不稳定;CritiqueVLM 开源可控,且与人类评分的一致性超过 GPT-4(MAE 降低 34.8%)
-
Alignment Score:
- 做什么:量化模型在不同 prompt 变体下的得分稳定性
- 核心思路:对同一问题的多个变体计算得分方差的倒数,值越高表示越鲁棒
- 设计动机:高性能但低鲁棒性的模型在实际应用中不可靠
评估指标体系¶
- CritiqueVLM 与人类评分的一致性用 6 个统计量衡量:MAE、Pearson/Spearman/Kendall 相关系数、Fuzzy Accuracy、Strict Accuracy
实验关键数据¶
CritiqueVLM 评估器对比¶
| 评估器 | MAE (↓) | Pearson (↑) | Fuzzy Acc (↑) | Strict Acc (↑) |
|---|---|---|---|---|
| ChatGLM3-6B | 2.424 | 0.230 | 0.350 | 0.285 |
| ChatGPT | 1.720 | 0.572 | 0.427 | 0.347 |
| GPT-4 | 1.256 | 0.839 | 0.677 | 0.565 |
| CritiqueVLM | 0.818 | 0.846 | 0.747 | 0.646 |
VLM 排行榜(部分)¶
| 模型 | 参数量 | 平均分 | 感知理解 | 推理分析 | 对话上下文 | Align. Score |
|---|---|---|---|---|---|---|
| Qwen2-VL | 72B | 6.51 | ~7.0 | ~5.5 | ~5.8 | 1.54 |
| Claude | - | 6.51 | ~7.1 | ~5.6 | ~6.3 | 1.45 |
| GPT-4o | - | 6.41 | ~6.9 | ~5.8 | ~5.4 | 1.18 |
| CogVLM2 | 19B | 5.81 | ~6.5 | ~4.7 | ~5.4 | 1.49 |
| InternVL-Chat | 26B | 5.62 | ~6.0 | ~4.8 | ~5.4 | 1.12 |
关键发现¶
- 所有 VLM 在感知理解上表现较好(均分 5.07),但推理分析较差(均分 4.38)
- 多轮对话中不连贯场景(incoherence)得分明显低于连贯场景(coherence),说明 VLM 难以检测先前对话中的错误
- 以英语为主的 VLM(如 Phi-3-Vision)在中文基准上表现明显下降
- 高性能模型不一定高鲁棒:GPT-4o 性能高但 alignment score 较低(1.18),Qwen2-VL 二者兼优
亮点与洞察¶
- 首个中文视觉对齐基准:填补了中文多模态评测的空白,数据来源于真实中文场景,任务设计涵盖单轮和多轮对话
- 小模型评估器超越 GPT-4:仅 6B 参数的 CritiqueVLM 通过规则校准和 SFT 就超过 GPT-4 的评估能力,说明专用微调评估器在特定领域有巨大优势,且更可控、更经济
- Alignment Score 指标:将"鲁棒性"纳入评测,不只看最高分还看稳定性,这个思路可推广到其他评测基准
- Prompt 改写策略:低成本地扩展评测规模并引入鲁棒性维度
局限性 / 可改进方向¶
- 数据规模相对有限(1054 张图像),覆盖的任务可进一步扩展
- CritiqueVLM 基于 ChatGLM3-6B(较老模型),换用更新的基础模型可能进一步提升
- 对话上下文任务中,incoherence 场景的构建方式未详细说明
- 评估只关注中文,未探索中英双语对比分析
- 部分图像来自网络爬虫,版权合规性需持续关注
- 缺少对 alignment score 的理论分析(为什么某些模型更鲁棒)
相关工作与启发¶
- vs MMBench:MMBench 有中英版本但只用选择题,AlignMMBench 用开放式问答评估更深层的对齐能力
- vs LLaVABench/MM-Vet:这些是英文开放式基准,用 GPT 评分;AlignMMBench 面向中文且自训评估器
- vs TouchStone:TouchStone 也是开放式 VLM 评测,但仅英文且无对话上下文任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个中文多模态对齐基准,CritiqueVLM 和 alignment score 有创新
- 实验充分度: ⭐⭐⭐⭐ 评估了 15+ 模型,评估器做了充分对比验证
- 写作质量: ⭐⭐⭐⭐ 数据构建流程清晰,评估方法论完整
- 价值: ⭐⭐⭐⭐ 对中文 VLM 社区有重要实用价值,CritiqueVLM 可直接复用