Do Vision-Language Models Really Understand Visual Language?¶

会议: ICML 2025
arXiv: 2410.00193
代码: 无
领域: 多模态VLM
关键词: 视觉语言理解, 图表理解, LVLM评估, 关系推理, 背景知识捷径

一句话总结¶

本文通过构建综合测试套件（含合成与真实图表）系统评估了大型视觉语言模型（LVLMs）的图表理解能力，发现模型虽可识别实体但对关系理解极为有限，其看似出色的图表推理表现实际源于利用背景知识作为捷径。

领域现状: 视觉语言（Visual Language）是一种通过符号、形状和空间排列来传递信息的通信系统，图表（Diagrams）是典型例子——以图像形式描绘复杂概念及其关系。近年来，大型视觉语言模型（LVLMs）在多模态理解上取得了迅猛进展，许多研究声称模型已能处理复杂的图表推理任务。

现有痛点: 图表的符号性质使得模型需要同时理解：(a) 概念实体的识别（如节点标签、文本内容），(b) 实体间关系的理解（如层次结构、因果关系、时序顺序）。然而，现有评估主要聚焦于最终答案的正确性，未能区分模型究竟是"真"理解了图表结构还是在利用其他线索。

核心矛盾: 模型在图表推理基准上的高分数 vs. 是否真正理解了视觉语言中的结构化信息？这里存在一个严重的评估漏洞：如果模型可以通过识别实体名称，然后利用预训练获得的世界知识来"猜"出实体间关系，那么高分并不代表真正的图表理解能力。

本文目标: 系统性地评估 LVLMs 对图表的"真实"理解能力，特别是区分实体识别能力和关系理解能力，并揭示背景知识在模型表现中的"捷径"作用。

切入角度: 设计合成图表（可完全控制实体与关系）+ 真实图表，构建多类型问题（实体识别、关系推理），并通过去除背景知识线索的对照实验来甄别模型的真实能力。

核心 idea: LVLMs 的图表推理能力是一种"幻觉"——主要依赖背景知识捷径而非对视觉结构的真正理解。

本文的工作是一项评估研究（evaluation study），而非提出新模型。核心贡献在于设计了一套全面的测试套件（test suite），包括：

合成图表生成:
- 自行生成图表，可精确控制节点（实体）和边（关系）
- 使用不同图表类型：流程图、树状图、实体关系图等
- 可灵活替换实体标签（例如用无意义的随机字符替代真实概念名称），从而消除背景知识的干扰
- 设计动机: 合成图表可以实现完全可控的实验，真实图表中的实体和关系可能在预训练数据中出现过，导致无法分离"理解"和"记忆"
多层次问题设计:
- 实体级问题: "图中有哪些节点？"、"某个标签是什么？"——测试视觉识别能力
- 关系级问题: "A 和 B 之间是什么关系？"、"谁是谁的上级/前驱？"——测试结构理解能力
- 推理级问题: 需要多步推理的复合问题，如"从 A 到 C 需要经过几个中间节点？"
- 设计动机: 将"看到"和"理解"分层考察，揭示模型的真实能力边界
背景知识消除实验（去混淆实验）:
- 对同一图表结构，分两组：
  - 有语义标签: 使用真实概念名称（如 "细胞分裂" → "DNA复制" → "有丝分裂"）
  - 无语义标签: 替换为随机字符串（如 "XYZ" → "ABC" → "MNP"）
- 对比模型在两种条件下的关系推理准确率
- 设计动机: 如果模型在无语义标签条件下关系推理性能大幅下降，说明它依赖的是背景知识而非视觉结构理解

本文不涉及模型训练，纯评估工作。评估的模型包括 GPT-4V、Gemini Pro Vision、LLaVA、InstructBLIP 等主流 LVLMs。

评估维度	GPT-4V	Gemini Pro	LLaVA-1.5	InstructBLIP
实体识别 (有语义)	~85%	~78%	~65%	~60%
关系推理 (有语义)	~72%	~65%	~45%	~40%
关系推理 (无语义)	~35%	~30%	~20%	~18%
性能下降幅度	-37pp	-35pp	-25pp	-22pp

揭示了一个重要的"幻觉": 看似强大的图表理解能力实际上是背景知识的"捷径"，这对依赖 LVLM 进行图表分析的下游应用（如科学文献理解、自动报告生成）敲响了警钟
简洁有效的实验设计: 通过合成图表 + 语义/非语义标签的对照，以极低的成本清晰地分离了两种能力
对评估方法论的贡献: 提醒领域在评估图表理解时需要控制混淆变量（背景知识），否则基准分数可能高估模型能力