Do Vision-Language Models Really Understand Visual Language?¶
会议: ICML 2025
arXiv: 2410.00193
代码: 无
领域: 多模态VLM
关键词: 视觉语言理解, 图表理解, LVLM评估, 关系推理, 背景知识捷径
一句话总结¶
本文通过构建综合测试套件(含合成与真实图表)系统评估了大型视觉语言模型(LVLMs)的图表理解能力,发现模型虽可识别实体但对关系理解极为有限,其看似出色的图表推理表现实际源于利用背景知识作为捷径。
研究背景与动机¶
领域现状: 视觉语言(Visual Language)是一种通过符号、形状和空间排列来传递信息的通信系统,图表(Diagrams)是典型例子——以图像形式描绘复杂概念及其关系。近年来,大型视觉语言模型(LVLMs)在多模态理解上取得了迅猛进展,许多研究声称模型已能处理复杂的图表推理任务。
现有痛点: 图表的符号性质使得模型需要同时理解:(a) 概念实体的识别(如节点标签、文本内容),(b) 实体间关系的理解(如层次结构、因果关系、时序顺序)。然而,现有评估主要聚焦于最终答案的正确性,未能区分模型究竟是"真"理解了图表结构还是在利用其他线索。
核心矛盾: 模型在图表推理基准上的高分数 vs. 是否真正理解了视觉语言中的结构化信息?这里存在一个严重的评估漏洞:如果模型可以通过识别实体名称,然后利用预训练获得的世界知识来"猜"出实体间关系,那么高分并不代表真正的图表理解能力。
本文目标: 系统性地评估 LVLMs 对图表的"真实"理解能力,特别是区分实体识别能力和关系理解能力,并揭示背景知识在模型表现中的"捷径"作用。
切入角度: 设计合成图表(可完全控制实体与关系)+ 真实图表,构建多类型问题(实体识别、关系推理),并通过去除背景知识线索的对照实验来甄别模型的真实能力。
核心 idea: LVLMs 的图表推理能力是一种"幻觉"——主要依赖背景知识捷径而非对视觉结构的真正理解。
方法详解¶
整体框架¶
本文的工作是一项评估研究(evaluation study),而非提出新模型。核心贡献在于设计了一套全面的测试套件(test suite),包括:
- 输入: 合成图表 + 真实跨领域图表
- 评估维度: 实体识别(entity recognition)、关系推理(relationship reasoning)
- 对照设计: 有/无背景知识线索的对比条件
- 输出: 各 LVLM 在各维度上的表现分析
关键设计¶
-
合成图表生成:
- 自行生成图表,可精确控制节点(实体)和边(关系)
- 使用不同图表类型:流程图、树状图、实体关系图等
- 可灵活替换实体标签(例如用无意义的随机字符替代真实概念名称),从而消除背景知识的干扰
- 设计动机: 合成图表可以实现完全可控的实验,真实图表中的实体和关系可能在预训练数据中出现过,导致无法分离"理解"和"记忆"
-
多层次问题设计:
- 实体级问题: "图中有哪些节点?"、"某个标签是什么?"——测试视觉识别能力
- 关系级问题: "A 和 B 之间是什么关系?"、"谁是谁的上级/前驱?"——测试结构理解能力
- 推理级问题: 需要多步推理的复合问题,如"从 A 到 C 需要经过几个中间节点?"
- 设计动机: 将"看到"和"理解"分层考察,揭示模型的真实能力边界
-
背景知识消除实验(去混淆实验):
- 对同一图表结构,分两组:
- 有语义标签: 使用真实概念名称(如 "细胞分裂" → "DNA复制" → "有丝分裂")
- 无语义标签: 替换为随机字符串(如 "XYZ" → "ABC" → "MNP")
- 对比模型在两种条件下的关系推理准确率
- 设计动机: 如果模型在无语义标签条件下关系推理性能大幅下降,说明它依赖的是背景知识而非视觉结构理解
- 对同一图表结构,分两组:
损失函数 / 训练策略¶
本文不涉及模型训练,纯评估工作。评估的模型包括 GPT-4V、Gemini Pro Vision、LLaVA、InstructBLIP 等主流 LVLMs。
实验关键数据¶
主实验¶
| 评估维度 | GPT-4V | Gemini Pro | LLaVA-1.5 | InstructBLIP |
|---|---|---|---|---|
| 实体识别 (有语义) | ~85% | ~78% | ~65% | ~60% |
| 关系推理 (有语义) | ~72% | ~65% | ~45% | ~40% |
| 关系推理 (无语义) | ~35% | ~30% | ~20% | ~18% |
| 性能下降幅度 | -37pp | -35pp | -25pp | -22pp |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 有语义标签 + 实体问题 | 高准确率 (~80%+) | 模型擅长文本识别 |
| 有语义标签 + 关系问题 | 中等准确率 (~60-70%) | 部分依赖背景知识 |
| 无语义标签 + 关系问题 | 低准确率 (~20-35%) | 揭示真实图表理解极弱 |
| 合成图表 vs 真实图表 | 合成图表略低 | 真实图表有更多背景知识可利用 |
| 简单关系 vs 复杂关系 | 简单高、复杂低 | 多步推理能力更差 |
关键发现¶
- 实体识别与关系推理的巨大差距: 模型可以较好地识别图表中的实体(得益于强大的 OCR 和物体识别能力),但对实体间的空间/逻辑关系理解极其薄弱
- 背景知识主导关系推理: 当去除语义标签后,关系推理准确率暴降 30-40 个百分点,证实模型主要依赖世界知识而非视觉线索
- 模型规模无法弥补缺陷: 即使是最强的 GPT-4V,在无语义条件下的关系推理也仅 ~35%,说明这不是简单的模型容量问题
亮点与洞察¶
- 揭示了一个重要的"幻觉": 看似强大的图表理解能力实际上是背景知识的"捷径",这对依赖 LVLM 进行图表分析的下游应用(如科学文献理解、自动报告生成)敲响了警钟
- 简洁有效的实验设计: 通过合成图表 + 语义/非语义标签的对照,以极低的成本清晰地分离了两种能力
- 对评估方法论的贡献: 提醒领域在评估图表理解时需要控制混淆变量(背景知识),否则基准分数可能高估模型能力
局限与展望¶
- 评估范围可进一步扩展到更多类型的视觉语言(如地图、乐谱、电路图等)
- 未深入分析背景知识捷径的具体机制——模型在哪些内部层级/注意力头利用了背景知识
- 未提出改进方案来增强模型的"真"图表理解能力
- 合成图表可能过于简单,与真实世界的复杂图表存在 gap
相关工作与启发¶
- 与"幻觉"(hallucination)研究相呼应:模型输出看起来正确但并非基于正确的推理过程
- 启发未来评估设计应包含"去混淆"条件,避免高分假象
- 对于需要真正结构化理解的任务(如科学图表解析),可能需要更专门化的架构设计
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统揭示 LVLM 图表理解的"幻觉"本质,实验设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 多模型、多图表类型、有对照实验,定量分析充分
- 写作质量: ⭐⭐⭐⭐ 论述逻辑清晰,结论有力
- 价值: ⭐⭐⭐⭐ 对领域认知有重要修正作用,具有警示意义
相关论文¶
- [CVPR 2025] Vision-Language Models Do Not Understand Negation
- [CVPR 2026] What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
- [ACL 2025] Can Vision Language Models Understand Mimed Actions?
- [ACL 2025] NegVQA: Can Vision Language Models Understand Negation?
- [ACL 2025] Can Multimodal Large Language Models Understand Spatial Relations?