跳转至

Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs

会议: ACL 2025
arXiv: 2410.08145
代码: 无(提供了benchmark数据)
领域: 多模态VLM
关键词: 视觉-知识冲突, MLLM幻觉, 反常识基准, 记忆化比率, Focus-on-Vision提示

一句话总结

首次系统探索 MLLM 中常识级别的视觉-知识冲突问题,提出自动化框架构建 ConflictVis 基准(374 图 + 1122 QA),发现 MLLM 在约 20% 的冲突场景中过度依赖参数化知识(尤其是 Yes-No 和动作类问题),并提出 Focus-on-Vision 提示策略进行缓解。

研究背景与动机

  1. 领域现状:MLLM(如 GPT-4o、LLaVA)通过整合视觉编码器和 LLM 在图像描述、VQA 等任务上表现出色。然而 LLM 固有的知识冲突问题(参数化知识 vs 外部信息)在多模态场景中演变为一种新形式——视觉输入与模型内在常识知识的冲突。
  2. 现有痛点
  3. 现有研究对视觉-知识冲突的评估不够系统:HallusionBench 仅用手工编辑的信息图表、AutoHallusion 只关注物体存在/空间关系、PhD 依赖手动收集
  4. 缺乏自动化的大规模冲突样本生成流程
  5. 对冲突的分类不够细致(未区分动作冲突和场景冲突)
  6. 问题类型单一(大多只有 Yes-No 问题)
  7. 核心矛盾:当视觉信息与 LLM 的常识知识矛盾时(如"女服务员在厨房签账单"而非"洗碗"),模型倾向于忽视视觉信息而使用内在知识回答。这本质上是 MLLM 中视觉信息利用不足的问题,也是幻觉的重要来源。
  8. 本文要解决什么?
  9. 如何自动化地构建高质量的反常识视觉基准
  10. MLLM 在不同冲突类型和问题格式下的表现模式是什么
  11. 现有缓解方法(VCD、PAI、CoT)是否有效,有没有更好的策略
  12. 切入角度:利用共现分析(NPMI)自动发现低共现的 ⟨Subject, Action, Place⟩ 三元组作为反常识场景,结合文生图模型生成对应图像,形成自动化的基准构建 pipeline。
  13. 核心 idea 一句话:用 NPMI 共现统计自动构建反常识三元组,生成图像和多类型 QA,系统评估 MLLM 在视觉-知识冲突下的"记忆化"行为。

方法详解

整体框架

输入语料(OMCS 常识数据集) → 知识组件提取(提取 Subject/Action/Place 短语) → 反常识查询构造(NPMI 筛选高共现上下文 + 低共现目标) → 多模态输入生成(DALL·E 3 生成图像 + 模板生成 Yes-No/MC/OE 三类 QA) → 人工质控ConflictVis 基准(374 图,1122 QA)

关键设计

  1. 自动化反常识查询构造:
  2. 做什么:自动发现与常识矛盾的三元组场景
  3. 核心思路:
    • 从 OMCS 语料提取高频 Subject(100个)、Action(150个)、Place(150个)短语
    • 用 NPMI 衡量组件间共现关系:\(\text{NPMI}(C_X; C_Y) = \frac{\text{PMI}(C_X; C_Y)}{-\log_2 P(C_X, C_Y)}\)
    • 高共现上下文:选择 NPMI 最高的 Top-K 个 (Subject, Place) 或 (Subject, Action) 对作为"正常背景"
    • 低共现目标:在给定上下文下,选择 NPMI 最低的 Top-M 个 Action/Place 作为反常识元素
    • 用 LLM (Vicuna-13B) 估计共现概率 \(P(\cdot)\)
  4. 设计动机:NPMI 归一化避免了高频词的偏差,自动化方法比手动构建更具可扩展性。高共现上下文确保场景本身是"正常"的,仅有一个异常元素

  5. 多类型问题生成:

  6. 做什么:为每个反常识场景生成三种问题类型
  7. 设计:
    • Yes-No:"Is the waitress in the kitchen signing a bill?" — 直接呈现反常识表述
    • Multiple-Choice:正确选项是反常识动作/场景,干扰项是常识选项
    • Open-Ended:"What is the waitress doing in the kitchen?" — 需要模型自由回答
  8. 设计动机:不同问题类型对模型施加不同程度的知识对抗压力,Yes-No 最直接触发常识否定反应

  9. 记忆化比率 (Memorization Ratio, MR):

  10. 做什么:量化模型对参数化知识的依赖程度
  11. 核心公式:\(MR = \frac{P_K}{P_K + P_V}\)
    • \(P_K\):回答与无图像时一致(依赖知识)
    • \(P_V\):回答与视觉信息一致(利用视觉)
  12. 通过对比有图/无图两种条件下的回答来分类,是一种巧妙的因果分析方法

  13. Focus-on-Vision (FoV) 提示策略:

  14. 做什么:简单但有效的缓解策略
  15. 实现:在文本查询后附加 "Please focus on the visual information."
  16. 设计动机:既然问题根源是视觉信息利用不足,最直接的办法就是显式提示模型关注视觉

评估设置

  • 9 个 MLLM:LLaVA (8B/13B/34B)、BLIP-2 (12.1B/13B)、Qwen-VL (9.6B)、GPT-4o、Claude-3.5-Sonnet
  • 指标:Accuracy(回答正确率)、MR(记忆化比率,越低越好)

实验关键数据

主实验(ConflictVis 准确率)

模型 Yes-No Multiple-Choice Open-Ended Avg Acc
BLIP-2-12B 39.3
LLaVA-1.5-13B 70.6 88.0 82.9 80.5
LLaVA-NeXT-34B 73.3 92.5 88.0 84.6
Qwen-VL-Chat 69.8 80.5 89.3 79.9
GPT-4o 74.9 97.1 97.9 89.9
Claude-3.5-Sonnet 56.4

所有模型在 Yes-No 上的表现 显著差于 MC 和 OE。

缓解方法对比(LLaVA-1.5-13B)

方法 Yes-No MC OE Avg
Baseline 70.6 88.0 82.9 80.5
+VCD 72.7 89.3 84.2 82.1
+PAI 85.6 88.8 86.1 86.8
+VR (CoT) 38.0 ↓↓ 89.8 76.7 68.2
+FoV (本文) 82.9 89.0 81.8 84.6
方法 (LLaVA-NeXT-34B) Yes-No MC OE Avg
Baseline 73.3 92.5 88.0 84.6
+VR (CoT) 43.6 ↓↓ 87.2 72.5 67.7
+FoV 85.8 92.5 89.8 89.4

关键发现

  • 约 20% 的回答过度依赖参数化知识,忽视了视觉信息
  • Yes-No 问题最容易触发知识覆盖:Claude-3.5-Sonnet 的 MR 达 43.6%,因为 Yes-No 直接呈现反常识表述激发了模型的否定反应
  • 动作冲突比场景冲突更难处理:动作准确率 73.9% vs 场景 85.2%,MR 23.8% vs 13.4%。原因是场景有更丰富的背景线索可供推断,而动作依赖精细的视觉细节
  • CoT 推理反而有害:让模型"逐步推理"会加重对知识的依赖,因为推理过程中生成的文本不断强化常识推断,导致自相矛盾或拒绝回答
  • FoV 简单有效:仅添加"请关注视觉信息"就能将 LLaVA-NeXT-34B 的准确率从 84.6% 提升到 89.4%
  • 输入-输出 relevancy 分析表明,失败案例中模型对文本 token 的注意力远超图像 token

亮点与洞察

  • NPMI 驱动的反常识构造框架具有高度可扩展性:可灵活定义新的冲突类型和 QA 格式,只要有领域语料就能自动生成基准。这个框架的思路可迁移到其他 counterfactual evaluation 场景
  • CoT 在冲突场景下适得其反是反直觉的重要发现:推理链会放大对参数化知识的依赖。这对"推理万能"的主流观点提出了有意义的挑战——当前提本身就"反常识"时,推理链反而会将模型引向错误方向
  • MR 指标的有/无图像对比设计是一种优雅的因果推断方法,可以精确量化视觉信息对回答的实际影响

局限性 / 可改进方向

  • ConflictVis 仅有 374 图片、1122 QA,规模偏小,可能存在领域覆盖不足
  • 反常识图像由 DALL·E 3 生成,可能存在生成质量问题(如物体变形),需要大量人工筛选
  • 概率估计依赖单一模型 Vicuna-13B,可能在benchmark中引入模型特异性偏差
  • 未深入分析造成视觉信息利用不足的根本原因(是视觉编码器的问题还是跨模态融合的问题?)
  • FoV 提示虽然有效但过于简单,未探索更复杂的提示策略如 visual chain-of-thought

相关工作与启发

  • vs HallusionBench:HallusionBench 关注信息图表的事实冲突,ConflictVis 关注自然常识冲突,覆盖更广泛的场景和问题类型
  • vs AutoHallusion:AutoHallusion 只关注物体存在/空间关系,且仅用 Yes-No 问题;ConflictVis 覆盖 Subject/Action/Place 三维度 + 三种问题类型
  • vs PhD:PhD 依赖手动收集,不可扩展;ConflictVis 的 NPMI 框架支持自动化大规模构建

评分

  • 新颖性: ⭐⭐⭐⭐ 视觉-知识冲突的系统研究是MLLM领域的重要空白,自动化基准构建框架有新意
  • 实验充分度: ⭐⭐⭐⭐ 9个模型、3种问题、2种冲突、多种缓解方法对比,分析细致
  • 写作质量: ⭐⭐⭐⭐⭐ 动机链清晰,图表丰富(relevancy map分析令人印象深刻),案例分析生动
  • 价值: ⭐⭐⭐⭐ 揭示了MLLM的重要缺陷(CoT反而有害),对trustworthy AI研究有启发意义