Can MLLMs Understand the Deep Implication Behind Chinese Images?¶

会议: ACL 2025
arXiv: 2410.13854
代码: https://cii-bench.github.io/
作者: Chenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du 等机构: 华中科技大学, 中科院深圳先进技术研究院, 中国科技大学, M-A-P, 01.ai 等领域: 多模态大语言模型 / 基准评测
关键词: MLLM评测, 中文图像隐含语义, 中国传统文化, CII-Bench, 高阶感知

一句话总结¶

提出 CII-Bench（Chinese Image Implication Understanding Benchmark），包含698张中国互联网/传统文化图像及800道选择题，系统评测MLLM对中文图像深层含义的高阶理解能力，发现最佳模型准确率仅64.4%，远低于人类平均78.2%，且模型在中国传统文化领域表现最差。

研究背景与动机¶

领域现状：随着MLLM能力不断提升，对其高阶感知能力的评测需求日益增长。此前已有英文图像隐含含义理解基准 II-Bench，但 Claude-3.5-Sonnet 在 II-Bench 上已达80.9%准确率，逼近人类水平90.3%，说明需要更具挑战性的基准。

中英差异：中文图像与英文图像在表达方式上存在显著文化差异。中国传统山水画不仅描绘自然景色，还通过虚实相生、留白、笔法等艺术技法传达人与自然和谐等哲学概念。苏轼所说"诗画同源"正是对中国图像深层内涵的精准概括。年画、漫画等同样使用象征与隐喻传递幸福、繁荣等寓意。

核心动机：目前缺少针对中文视觉内容进行MLLM高阶感知和理解评测的工作。CII-Bench 填补这一空白，全面测试模型在中国文化语境下的感知、推理和理解能力。

方法详解¶

3.1 基准概述¶

CII-Bench 包含 698张图像 和 800道多选题，覆盖六个领域： - 生活 (Life)：216题 - 艺术 (Art)：123题 - 社会 (Society)：157题 - 政治 (Politics)：21题 - 环境 (Environment)：51题 - 中国传统文化 (CTC)：130题

图像类型包括：插画、表情包/Meme、海报、单格漫画、多格漫画和绘画。每道题提供6个选项，仅一个正确。

3.2 数据构建流程¶

数据收集：从多个知名插画网站收集17,695张原始图像，确保遵守版权和许可法规。

三阶段数据过滤： 1. 图像去重：使用图像相似度算法进行像素级比较，消除重复 2. 文字区域控制：使用OCR技术识别文字区域，排除文字占比过大的图像，保持以视觉为中心 3. 视觉审查：严格审查剔除无隐喻深度的图像。该流程淘汰超过95%的初始图像，最终保留不到1,000张高质量图像

数据标注：由30名来自不同学科和机构的本科生完成标注。标注流程包括： - 预标注一致性校验 - 多轮标注与交叉验证（每张图被两名标注者标注，差异由第三方审查） - 标注内容精化（难度、类型、情感标签、领域、修辞手法等） - 语境分析与后标注审查

3.3 数据集统计¶

每道问题平均约11个中文字符
每个选项平均28字符
每张图配有人工撰写的详细描述
难度分三级：Easy / Medium / Hard
情感分三类：正面 / 中性 / 负面
修辞手法标注：隐喻、夸张、象征、视觉错位、对比、类比、拟人、对照

3.4 评测设计¶

采用八种配置评估每个模型： - None（zero-shot标准提示） - 1/2/3-shot - CoT（思维链） - Domain（提供领域信息） - Emotion（提供情感极性信息） - Rhetoric（提供修辞手法信息）

同时选取部分纯文本LLM（无图像输入）完成任务，验证图像在答题中的必要性。

实验¶

主实验结果¶

模型	Overall	Life	Art	Society	CTC	Positive	Negative
人类平均	78.2	81.0	67.7	82.7	65.9	77.9	75.2
人类最佳	81.0	83.2	73.6	87.2	66.7	78.2	78.8
Qwen2-VL-72B	64.4	61.7	61.2	68.0	59.9	62.7	63.8
GLM-4V	60.9	55.0	59.9	66.5	55.5	58.5	64.5
Gemini-1.5 Pro	60.1	60.0	63.3	62.4	51.1	54.8	65.6
InternVL2-40B	57.9	55.8	55.1	61.9	52.6	54.4	58.0
GPT-4o	54.1	54.1	55.8	52.1	51.8	51.9	56.2
纯文本 DeepSeek-67B	27.1	26.6	32.7	30.9	18.2	25.7	22.2

关键发现： 1. 人机差距显著：最佳模型 Qwen2-VL-72B 仅64.4%，而人类平均78.2%，最佳81.0% 2. 开源优于闭源：最佳开源模型（Qwen2-VL-72B, 64.4%）以超过3%的优势超越最佳闭源模型（GLM-4V, 60.9%） 3. 中国传统文化最难：所有模型在CTC领域得分最低，远低于其他领域。GPT-4o仅能观察到表面信息，难以深度解读中国传统绘画中复杂的文化元素

消融实验¶

提示策略对比： - 情感提示 最有效：为模型提供情感极性（正面/负面）信息后，大多数模型准确率显著提高。这符合直觉——情感信息可帮助模型排除不相关选项 - 领域和修辞提示 效果有限：因为这些信息通常不能有效帮助排除选项 - CoT不一定有效：MiniCPM-v2.6 从45.0%降到38.9%，LLaVA-1.6-72B 从48.0%降到45.3%——原因是CoT导致过度解读

Few-shot 效果： - 随样例数量增加，准确率反而下降 - 原因：①多图处理能力不足 ②输入长度增加后长文本处理能力不佳 - 例如 InternVL2-40B：None 57.9% → 1-shot 53.0% → 3-shot 41.9%

纯文本实验： - DeepSeek-67B-Chat 仅27.1%，证明CII-Bench高度依赖视觉内容

中国传统文化深度评测¶

设计五维评估指标评测模型对中国传统绘画的理解： 1. 表面信息 (Surface-level Information) 2. 审美特征 (Aesthetic Characteristics) 3. 笔墨技法 (Brush and Ink Skills) 4. 文化历史 (Culture and History) 5. 深层含义 (Deep Implications)

GPT-4o总体得分2.71（满分5分），表明模型仅能观察到绘画表面信息，在深度解读中国传统艺术的复杂文化元素方面与人类存在巨大差距。

亮点与洞察¶

首个中文图像隐含含义理解基准：填补了MLLM在中文视觉内容高阶理解评测方面的空白
文化差异的量化呈现：中文图像的含蓄表达方式使MLLM面临更大挑战——即便先进模型也难以理解"虚实相生"等中国美学概念
情感理解偏差：模型在负面情感图像上表现更好，而人类在正面情感图像上更敏感。这一发现与英文 II-Bench 结论相反，反映中英文化在情感表达上的差异
开源逆袭闭源：Qwen2-VL-72B 作为开源模型以超过3%的优势超越所有闭源模型
GPT-4o的文化盲点：在中国传统文化理解上仅能达到表面水平，深层文化解读几乎无能为力

局限性¶

数据集规模有限（698张图像/800题），可能不够全面代表中文图像的多样性
标注存在一定主观性，尤其是对深层含义的理解因个人文化背景而异
未评估视频模态的理解能力
随着MLLM能力快速进步，基准可能面临过时风险

评分 ⭐⭐⭐⭐¶

创新性：⭐⭐⭐⭐ — 首个中文图像隐含含义理解基准，角度新颖
实用性：⭐⭐⭐⭐ — 揭示MLLM在跨文化理解上的显著缺陷，对模型改进有指导价值
实验充分性：⭐⭐⭐⭐⭐ — 多角度、多维度评测十分全面
写作质量：⭐⭐⭐⭐ — 结构清晰，分析深入