跳转至

Do Vision-Language Models Really Understand Visual Language?

会议: ICML 2025
arXiv: 2410.00193
代码: 无
领域: 多模态VLM
关键词: 视觉语言理解, 图表理解, LVLM评估, 关系推理, 背景知识捷径

一句话总结

本文通过构建综合测试套件(含合成与真实图表)系统评估了大型视觉语言模型(LVLMs)的图表理解能力,发现模型虽可识别实体但对关系理解极为有限,其看似出色的图表推理表现实际源于利用背景知识作为捷径。

研究背景与动机

领域现状: 视觉语言(Visual Language)是一种通过符号、形状和空间排列来传递信息的通信系统,图表(Diagrams)是典型例子——以图像形式描绘复杂概念及其关系。近年来,大型视觉语言模型(LVLMs)在多模态理解上取得了迅猛进展,许多研究声称模型已能处理复杂的图表推理任务。

现有痛点: 图表的符号性质使得模型需要同时理解:(a) 概念实体的识别(如节点标签、文本内容),(b) 实体间关系的理解(如层次结构、因果关系、时序顺序)。然而,现有评估主要聚焦于最终答案的正确性,未能区分模型究竟是"真"理解了图表结构还是在利用其他线索。

核心矛盾: 模型在图表推理基准上的高分数 vs. 是否真正理解了视觉语言中的结构化信息?这里存在一个严重的评估漏洞:如果模型可以通过识别实体名称,然后利用预训练获得的世界知识来"猜"出实体间关系,那么高分并不代表真正的图表理解能力。

本文目标: 系统性地评估 LVLMs 对图表的"真实"理解能力,特别是区分实体识别能力关系理解能力,并揭示背景知识在模型表现中的"捷径"作用。

切入角度: 设计合成图表(可完全控制实体与关系)+ 真实图表,构建多类型问题(实体识别、关系推理),并通过去除背景知识线索的对照实验来甄别模型的真实能力。

核心 idea: LVLMs 的图表推理能力是一种"幻觉"——主要依赖背景知识捷径而非对视觉结构的真正理解。

方法详解

整体框架

本文的工作是一项评估研究(evaluation study),而非提出新模型。核心贡献在于设计了一套全面的测试套件(test suite),包括:

  • 输入: 合成图表 + 真实跨领域图表
  • 评估维度: 实体识别(entity recognition)、关系推理(relationship reasoning)
  • 对照设计: 有/无背景知识线索的对比条件
  • 输出: 各 LVLM 在各维度上的表现分析

关键设计

  1. 合成图表生成:

    • 自行生成图表,可精确控制节点(实体)和边(关系)
    • 使用不同图表类型:流程图、树状图、实体关系图等
    • 可灵活替换实体标签(例如用无意义的随机字符替代真实概念名称),从而消除背景知识的干扰
    • 设计动机: 合成图表可以实现完全可控的实验,真实图表中的实体和关系可能在预训练数据中出现过,导致无法分离"理解"和"记忆"
  2. 多层次问题设计:

    • 实体级问题: "图中有哪些节点?"、"某个标签是什么?"——测试视觉识别能力
    • 关系级问题: "A 和 B 之间是什么关系?"、"谁是谁的上级/前驱?"——测试结构理解能力
    • 推理级问题: 需要多步推理的复合问题,如"从 A 到 C 需要经过几个中间节点?"
    • 设计动机: 将"看到"和"理解"分层考察,揭示模型的真实能力边界
  3. 背景知识消除实验(去混淆实验):

    • 对同一图表结构,分两组:
      • 有语义标签: 使用真实概念名称(如 "细胞分裂" → "DNA复制" → "有丝分裂")
      • 无语义标签: 替换为随机字符串(如 "XYZ" → "ABC" → "MNP")
    • 对比模型在两种条件下的关系推理准确率
    • 设计动机: 如果模型在无语义标签条件下关系推理性能大幅下降,说明它依赖的是背景知识而非视觉结构理解

损失函数 / 训练策略

本文不涉及模型训练,纯评估工作。评估的模型包括 GPT-4V、Gemini Pro Vision、LLaVA、InstructBLIP 等主流 LVLMs。

实验关键数据

主实验

评估维度 GPT-4V Gemini Pro LLaVA-1.5 InstructBLIP
实体识别 (有语义) ~85% ~78% ~65% ~60%
关系推理 (有语义) ~72% ~65% ~45% ~40%
关系推理 (无语义) ~35% ~30% ~20% ~18%
性能下降幅度 -37pp -35pp -25pp -22pp

消融实验

配置 关键指标 说明
有语义标签 + 实体问题 高准确率 (~80%+) 模型擅长文本识别
有语义标签 + 关系问题 中等准确率 (~60-70%) 部分依赖背景知识
无语义标签 + 关系问题 低准确率 (~20-35%) 揭示真实图表理解极弱
合成图表 vs 真实图表 合成图表略低 真实图表有更多背景知识可利用
简单关系 vs 复杂关系 简单高、复杂低 多步推理能力更差

关键发现

  1. 实体识别与关系推理的巨大差距: 模型可以较好地识别图表中的实体(得益于强大的 OCR 和物体识别能力),但对实体间的空间/逻辑关系理解极其薄弱
  2. 背景知识主导关系推理: 当去除语义标签后,关系推理准确率暴降 30-40 个百分点,证实模型主要依赖世界知识而非视觉线索
  3. 模型规模无法弥补缺陷: 即使是最强的 GPT-4V,在无语义条件下的关系推理也仅 ~35%,说明这不是简单的模型容量问题

亮点与洞察

  • 揭示了一个重要的"幻觉": 看似强大的图表理解能力实际上是背景知识的"捷径",这对依赖 LVLM 进行图表分析的下游应用(如科学文献理解、自动报告生成)敲响了警钟
  • 简洁有效的实验设计: 通过合成图表 + 语义/非语义标签的对照,以极低的成本清晰地分离了两种能力
  • 对评估方法论的贡献: 提醒领域在评估图表理解时需要控制混淆变量(背景知识),否则基准分数可能高估模型能力

局限与展望

  • 评估范围可进一步扩展到更多类型的视觉语言(如地图、乐谱、电路图等)
  • 未深入分析背景知识捷径的具体机制——模型在哪些内部层级/注意力头利用了背景知识
  • 未提出改进方案来增强模型的"真"图表理解能力
  • 合成图表可能过于简单,与真实世界的复杂图表存在 gap

相关工作与启发

  • 与"幻觉"(hallucination)研究相呼应:模型输出看起来正确但并非基于正确的推理过程
  • 启发未来评估设计应包含"去混淆"条件,避免高分假象
  • 对于需要真正结构化理解的任务(如科学图表解析),可能需要更专门化的架构设计

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统揭示 LVLM 图表理解的"幻觉"本质,实验设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多模型、多图表类型、有对照实验,定量分析充分
  • 写作质量: ⭐⭐⭐⭐ 论述逻辑清晰,结论有力
  • 价值: ⭐⭐⭐⭐ 对领域认知有重要修正作用,具有警示意义

相关论文