AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models¶

会议: ACL 2025
arXiv: 2406.09295
代码: https://github.com/THUDM/AlignMMBench
领域: 多模态VLM / 评测基准
关键词: VLM评测, 中文多模态, alignment benchmark, CritiqueVLM, prompt鲁棒性

一句话总结¶

提出 AlignMMBench，首个面向中文视觉上下文的多模态对齐评测基准，涵盖 3 大类 13 项任务、1054 张图像和 4978 个 QA 对（含单轮/多轮对话），并训练了基于 ChatGLM3-6B 的评估器 CritiqueVLM，其评估一致性超过 GPT-4。

研究背景与动机¶

领域现状：VLM 在经过 SFT 和 RLHF 对齐训练后展现出强大的视觉理解能力。中文 VLM（QwenVL、CogVLM、InternVL 等）在公开排行榜上已接近 GPT-4o。
现有痛点：现有评测基准（MME、MMBench、MMMU 等）主要用是非题/选择题等非言语方式评估基础能力，缺乏对对齐性能（alignment）的细粒度开放式评估，更缺乏专门针对中文视觉场景的基准。
核心矛盾：中文多模态语料稀缺且标注困难（中文语境歧义性更强），需要多名标注者反复验证；中英文的图像特征和文化背景知识差异显著，仅靠英文数据集无法全面评估中文 VLM。
本文要解决什么？ 构建高质量的中文多模态对齐评测基准，涵盖感知理解、推理分析和对话上下文三大维度，同时解决开放式题目评估困难的问题。
切入角度：从真实场景和互联网资源手动收集中文图像，设计 prompt 改写策略生成语义等价但表述不同的变体问题，并训练专用评估器替代 GPT-4。
核心idea一句话：用精心策划的中文视觉场景 + prompt 改写策略 + 规则校准的小型评估器，构建可复现、可控的中文多模态对齐评测体系。

方法详解¶

整体框架¶

AlignMMBench 包含三个核心组件： - 评测数据集：1054 张图像、4978 个 QA 对，覆盖 3 大类 13 项任务 - 评估器 CritiqueVLM：基于 ChatGLM3-6B 微调的自动评分模型 - Alignment Score 指标：衡量模型在不同 prompt 变体下的鲁棒性

关键设计¶

数据集构建 (3 类 13 任务):
做什么：覆盖感知理解（描述、识别、计数、OCR、记忆、知识）、推理分析（推理、图表、编程、比较、写作）和对话上下文（连贯/不连贯多轮对话）
构建流程：① 定义任务类型 → ② 爬虫从百度等中文网站收集图像 → ③ 人工过滤低质量图 → ④ 制作种子问题 → ⑤ LLM 改写生成语义等价变体 → ⑥ 人工标注参考答案 → ⑦ 两阶段质量审核
设计动机：中文多模态语料极其稀缺，无法像英文那样利用 VQAv2 等现有数据集，必须从零构建；对话上下文任务（特别是不连贯任务）评估 VLM 检测错误的能力，这是实际应用中的关键能力
Prompt 改写策略:
做什么：用 LLM 将每个种子问题改写为多个风格不同但语义等价的变体（最终从 1054 个种子扩展到 4978 个 QA 对）
核心思路：真实用户表达同一意图的方式多种多样，评估模型对不同表述的鲁棒性
设计动机：引入"alignment score"——模型在同一问题不同表述下的一致性，衡量对齐的稳定性
CritiqueVLM 评估器:
做什么：基于 ChatGLM3-6B 微调，输入问题+参考答案+模型回答，输出 1-10 分 + CoT 解释
核心思路：设计通用提示（评分范围、标准、格式）+ 任务特定提示（类别级别的评分要点），用人工标注的评分数据（含 CoT 解释）进行 SFT
训练细节：32 张 A800 GPU，batch_size=128，1000 轮迭代，loss 从 3.8 降到 0.3
设计动机：GPT-4 API 是黑盒、成本高且会更新导致不稳定；CritiqueVLM 开源可控，且与人类评分的一致性超过 GPT-4（MAE 降低 34.8%）
Alignment Score:
做什么：量化模型在不同 prompt 变体下的得分稳定性
核心思路：对同一问题的多个变体计算得分方差的倒数，值越高表示越鲁棒
设计动机：高性能但低鲁棒性的模型在实际应用中不可靠

评估指标体系¶

CritiqueVLM 与人类评分的一致性用 6 个统计量衡量：MAE、Pearson/Spearman/Kendall 相关系数、Fuzzy Accuracy、Strict Accuracy

实验关键数据¶

CritiqueVLM 评估器对比¶

评估器	MAE (↓)	Pearson (↑)	Fuzzy Acc (↑)	Strict Acc (↑)
ChatGLM3-6B	2.424	0.230	0.350	0.285
ChatGPT	1.720	0.572	0.427	0.347
GPT-4	1.256	0.839	0.677	0.565
CritiqueVLM	0.818	0.846	0.747	0.646

VLM 排行榜（部分）¶

模型	参数量	平均分	感知理解	推理分析	对话上下文	Align. Score
Qwen2-VL	72B	6.51	~7.0	~5.5	~5.8	1.54
Claude	-	6.51	~7.1	~5.6	~6.3	1.45
GPT-4o	-	6.41	~6.9	~5.8	~5.4	1.18
CogVLM2	19B	5.81	~6.5	~4.7	~5.4	1.49
InternVL-Chat	26B	5.62	~6.0	~4.8	~5.4	1.12

关键发现¶

所有 VLM 在感知理解上表现较好（均分 5.07），但推理分析较差（均分 4.38）
多轮对话中不连贯场景（incoherence）得分明显低于连贯场景（coherence），说明 VLM 难以检测先前对话中的错误
以英语为主的 VLM（如 Phi-3-Vision）在中文基准上表现明显下降
高性能模型不一定高鲁棒：GPT-4o 性能高但 alignment score 较低（1.18），Qwen2-VL 二者兼优

亮点与洞察¶

首个中文视觉对齐基准：填补了中文多模态评测的空白，数据来源于真实中文场景，任务设计涵盖单轮和多轮对话
小模型评估器超越 GPT-4：仅 6B 参数的 CritiqueVLM 通过规则校准和 SFT 就超过 GPT-4 的评估能力，说明专用微调评估器在特定领域有巨大优势，且更可控、更经济
Alignment Score 指标：将"鲁棒性"纳入评测，不只看最高分还看稳定性，这个思路可推广到其他评测基准
Prompt 改写策略：低成本地扩展评测规模并引入鲁棒性维度

局限性 / 可改进方向¶

数据规模相对有限（1054 张图像），覆盖的任务可进一步扩展
CritiqueVLM 基于 ChatGLM3-6B（较老模型），换用更新的基础模型可能进一步提升
对话上下文任务中，incoherence 场景的构建方式未详细说明
评估只关注中文，未探索中英双语对比分析
部分图像来自网络爬虫，版权合规性需持续关注
缺少对 alignment score 的理论分析（为什么某些模型更鲁棒）

评分¶

新颖性: ⭐⭐⭐⭐ 首个中文多模态对齐基准，CritiqueVLM 和 alignment score 有创新
实验充分度: ⭐⭐⭐⭐ 评估了 15+ 模型，评估器做了充分对比验证
写作质量: ⭐⭐⭐⭐ 数据构建流程清晰，评估方法论完整
价值: ⭐⭐⭐⭐ 对中文 VLM 社区有重要实用价值，CritiqueVLM 可直接复用