跳转至

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

会议: ACL 2025
arXiv: 2406.09295
代码: https://github.com/THUDM/AlignMMBench
领域: 多模态VLM / 评测基准
关键词: VLM评测, 中文多模态, alignment benchmark, CritiqueVLM, prompt鲁棒性

一句话总结

提出 AlignMMBench,首个面向中文视觉上下文的多模态对齐评测基准,涵盖 3 大类 13 项任务、1054 张图像和 4978 个 QA 对(含单轮/多轮对话),并训练了基于 ChatGLM3-6B 的评估器 CritiqueVLM,其评估一致性超过 GPT-4。

研究背景与动机

  1. 领域现状:VLM 在经过 SFT 和 RLHF 对齐训练后展现出强大的视觉理解能力。中文 VLM(QwenVL、CogVLM、InternVL 等)在公开排行榜上已接近 GPT-4o。
  2. 现有痛点:现有评测基准(MME、MMBench、MMMU 等)主要用是非题/选择题等非言语方式评估基础能力,缺乏对对齐性能(alignment)的细粒度开放式评估,更缺乏专门针对中文视觉场景的基准。
  3. 核心矛盾:中文多模态语料稀缺且标注困难(中文语境歧义性更强),需要多名标注者反复验证;中英文的图像特征和文化背景知识差异显著,仅靠英文数据集无法全面评估中文 VLM。
  4. 本文要解决什么? 构建高质量的中文多模态对齐评测基准,涵盖感知理解、推理分析和对话上下文三大维度,同时解决开放式题目评估困难的问题。
  5. 切入角度:从真实场景和互联网资源手动收集中文图像,设计 prompt 改写策略生成语义等价但表述不同的变体问题,并训练专用评估器替代 GPT-4。
  6. 核心idea一句话:用精心策划的中文视觉场景 + prompt 改写策略 + 规则校准的小型评估器,构建可复现、可控的中文多模态对齐评测体系。

方法详解

整体框架

AlignMMBench 包含三个核心组件: - 评测数据集:1054 张图像、4978 个 QA 对,覆盖 3 大类 13 项任务 - 评估器 CritiqueVLM:基于 ChatGLM3-6B 微调的自动评分模型 - Alignment Score 指标:衡量模型在不同 prompt 变体下的鲁棒性

关键设计

  1. 数据集构建 (3 类 13 任务):
  2. 做什么:覆盖感知理解(描述、识别、计数、OCR、记忆、知识)、推理分析(推理、图表、编程、比较、写作)和对话上下文(连贯/不连贯多轮对话)
  3. 构建流程:① 定义任务类型 → ② 爬虫从百度等中文网站收集图像 → ③ 人工过滤低质量图 → ④ 制作种子问题 → ⑤ LLM 改写生成语义等价变体 → ⑥ 人工标注参考答案 → ⑦ 两阶段质量审核
  4. 设计动机:中文多模态语料极其稀缺,无法像英文那样利用 VQAv2 等现有数据集,必须从零构建;对话上下文任务(特别是不连贯任务)评估 VLM 检测错误的能力,这是实际应用中的关键能力

  5. Prompt 改写策略:

  6. 做什么:用 LLM 将每个种子问题改写为多个风格不同但语义等价的变体(最终从 1054 个种子扩展到 4978 个 QA 对)
  7. 核心思路:真实用户表达同一意图的方式多种多样,评估模型对不同表述的鲁棒性
  8. 设计动机:引入"alignment score"——模型在同一问题不同表述下的一致性,衡量对齐的稳定性

  9. CritiqueVLM 评估器:

  10. 做什么:基于 ChatGLM3-6B 微调,输入问题+参考答案+模型回答,输出 1-10 分 + CoT 解释
  11. 核心思路:设计通用提示(评分范围、标准、格式)+ 任务特定提示(类别级别的评分要点),用人工标注的评分数据(含 CoT 解释)进行 SFT
  12. 训练细节:32 张 A800 GPU,batch_size=128,1000 轮迭代,loss 从 3.8 降到 0.3
  13. 设计动机:GPT-4 API 是黑盒、成本高且会更新导致不稳定;CritiqueVLM 开源可控,且与人类评分的一致性超过 GPT-4(MAE 降低 34.8%)

  14. Alignment Score:

  15. 做什么:量化模型在不同 prompt 变体下的得分稳定性
  16. 核心思路:对同一问题的多个变体计算得分方差的倒数,值越高表示越鲁棒
  17. 设计动机:高性能但低鲁棒性的模型在实际应用中不可靠

评估指标体系

  • CritiqueVLM 与人类评分的一致性用 6 个统计量衡量:MAE、Pearson/Spearman/Kendall 相关系数、Fuzzy Accuracy、Strict Accuracy

实验关键数据

CritiqueVLM 评估器对比

评估器 MAE (↓) Pearson (↑) Fuzzy Acc (↑) Strict Acc (↑)
ChatGLM3-6B 2.424 0.230 0.350 0.285
ChatGPT 1.720 0.572 0.427 0.347
GPT-4 1.256 0.839 0.677 0.565
CritiqueVLM 0.818 0.846 0.747 0.646

VLM 排行榜(部分)

模型 参数量 平均分 感知理解 推理分析 对话上下文 Align. Score
Qwen2-VL 72B 6.51 ~7.0 ~5.5 ~5.8 1.54
Claude - 6.51 ~7.1 ~5.6 ~6.3 1.45
GPT-4o - 6.41 ~6.9 ~5.8 ~5.4 1.18
CogVLM2 19B 5.81 ~6.5 ~4.7 ~5.4 1.49
InternVL-Chat 26B 5.62 ~6.0 ~4.8 ~5.4 1.12

关键发现

  • 所有 VLM 在感知理解上表现较好(均分 5.07),但推理分析较差(均分 4.38)
  • 多轮对话中不连贯场景(incoherence)得分明显低于连贯场景(coherence),说明 VLM 难以检测先前对话中的错误
  • 以英语为主的 VLM(如 Phi-3-Vision)在中文基准上表现明显下降
  • 高性能模型不一定高鲁棒:GPT-4o 性能高但 alignment score 较低(1.18),Qwen2-VL 二者兼优

亮点与洞察

  • 首个中文视觉对齐基准:填补了中文多模态评测的空白,数据来源于真实中文场景,任务设计涵盖单轮和多轮对话
  • 小模型评估器超越 GPT-4:仅 6B 参数的 CritiqueVLM 通过规则校准和 SFT 就超过 GPT-4 的评估能力,说明专用微调评估器在特定领域有巨大优势,且更可控、更经济
  • Alignment Score 指标:将"鲁棒性"纳入评测,不只看最高分还看稳定性,这个思路可推广到其他评测基准
  • Prompt 改写策略:低成本地扩展评测规模并引入鲁棒性维度

局限性 / 可改进方向

  • 数据规模相对有限(1054 张图像),覆盖的任务可进一步扩展
  • CritiqueVLM 基于 ChatGLM3-6B(较老模型),换用更新的基础模型可能进一步提升
  • 对话上下文任务中,incoherence 场景的构建方式未详细说明
  • 评估只关注中文,未探索中英双语对比分析
  • 部分图像来自网络爬虫,版权合规性需持续关注
  • 缺少对 alignment score 的理论分析(为什么某些模型更鲁棒)

相关工作与启发

  • vs MMBench:MMBench 有中英版本但只用选择题,AlignMMBench 用开放式问答评估更深层的对齐能力
  • vs LLaVABench/MM-Vet:这些是英文开放式基准,用 GPT 评分;AlignMMBench 面向中文且自训评估器
  • vs TouchStone:TouchStone 也是开放式 VLM 评测,但仅英文且无对话上下文任务

评分

  • 新颖性: ⭐⭐⭐⭐ 首个中文多模态对齐基准,CritiqueVLM 和 alignment score 有创新
  • 实验充分度: ⭐⭐⭐⭐ 评估了 15+ 模型,评估器做了充分对比验证
  • 写作质量: ⭐⭐⭐⭐ 数据构建流程清晰,评估方法论完整
  • 价值: ⭐⭐⭐⭐ 对中文 VLM 社区有重要实用价值,CritiqueVLM 可直接复用