Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs¶
会议: ACL 2025
arXiv: 2410.08145
代码: 无(提供了benchmark数据)
领域: 多模态VLM
关键词: 视觉-知识冲突, MLLM幻觉, 反常识基准, 记忆化比率, Focus-on-Vision提示
一句话总结¶
首次系统探索 MLLM 中常识级别的视觉-知识冲突问题,提出自动化框架构建 ConflictVis 基准(374 图 + 1122 QA),发现 MLLM 在约 20% 的冲突场景中过度依赖参数化知识(尤其是 Yes-No 和动作类问题),并提出 Focus-on-Vision 提示策略进行缓解。
研究背景与动机¶
- 领域现状:MLLM(如 GPT-4o、LLaVA)通过整合视觉编码器和 LLM 在图像描述、VQA 等任务上表现出色。然而 LLM 固有的知识冲突问题(参数化知识 vs 外部信息)在多模态场景中演变为一种新形式——视觉输入与模型内在常识知识的冲突。
- 现有痛点:
- 现有研究对视觉-知识冲突的评估不够系统:HallusionBench 仅用手工编辑的信息图表、AutoHallusion 只关注物体存在/空间关系、PhD 依赖手动收集
- 缺乏自动化的大规模冲突样本生成流程
- 对冲突的分类不够细致(未区分动作冲突和场景冲突)
- 问题类型单一(大多只有 Yes-No 问题)
- 核心矛盾:当视觉信息与 LLM 的常识知识矛盾时(如"女服务员在厨房签账单"而非"洗碗"),模型倾向于忽视视觉信息而使用内在知识回答。这本质上是 MLLM 中视觉信息利用不足的问题,也是幻觉的重要来源。
- 本文要解决什么?
- 如何自动化地构建高质量的反常识视觉基准
- MLLM 在不同冲突类型和问题格式下的表现模式是什么
- 现有缓解方法(VCD、PAI、CoT)是否有效,有没有更好的策略
- 切入角度:利用共现分析(NPMI)自动发现低共现的 ⟨Subject, Action, Place⟩ 三元组作为反常识场景,结合文生图模型生成对应图像,形成自动化的基准构建 pipeline。
- 核心 idea 一句话:用 NPMI 共现统计自动构建反常识三元组,生成图像和多类型 QA,系统评估 MLLM 在视觉-知识冲突下的"记忆化"行为。
方法详解¶
整体框架¶
输入语料(OMCS 常识数据集) → 知识组件提取(提取 Subject/Action/Place 短语) → 反常识查询构造(NPMI 筛选高共现上下文 + 低共现目标) → 多模态输入生成(DALL·E 3 生成图像 + 模板生成 Yes-No/MC/OE 三类 QA) → 人工质控 → ConflictVis 基准(374 图,1122 QA)
关键设计¶
- 自动化反常识查询构造:
- 做什么:自动发现与常识矛盾的三元组场景
- 核心思路:
- 从 OMCS 语料提取高频 Subject(100个)、Action(150个)、Place(150个)短语
- 用 NPMI 衡量组件间共现关系:\(\text{NPMI}(C_X; C_Y) = \frac{\text{PMI}(C_X; C_Y)}{-\log_2 P(C_X, C_Y)}\)
- 高共现上下文:选择 NPMI 最高的 Top-K 个 (Subject, Place) 或 (Subject, Action) 对作为"正常背景"
- 低共现目标:在给定上下文下,选择 NPMI 最低的 Top-M 个 Action/Place 作为反常识元素
- 用 LLM (Vicuna-13B) 估计共现概率 \(P(\cdot)\)
-
设计动机:NPMI 归一化避免了高频词的偏差,自动化方法比手动构建更具可扩展性。高共现上下文确保场景本身是"正常"的,仅有一个异常元素
-
多类型问题生成:
- 做什么:为每个反常识场景生成三种问题类型
- 设计:
- Yes-No:"Is the waitress in the kitchen signing a bill?" — 直接呈现反常识表述
- Multiple-Choice:正确选项是反常识动作/场景,干扰项是常识选项
- Open-Ended:"What is the waitress doing in the kitchen?" — 需要模型自由回答
-
设计动机:不同问题类型对模型施加不同程度的知识对抗压力,Yes-No 最直接触发常识否定反应
-
记忆化比率 (Memorization Ratio, MR):
- 做什么:量化模型对参数化知识的依赖程度
- 核心公式:\(MR = \frac{P_K}{P_K + P_V}\)
- \(P_K\):回答与无图像时一致(依赖知识)
- \(P_V\):回答与视觉信息一致(利用视觉)
-
通过对比有图/无图两种条件下的回答来分类,是一种巧妙的因果分析方法
-
Focus-on-Vision (FoV) 提示策略:
- 做什么:简单但有效的缓解策略
- 实现:在文本查询后附加 "Please focus on the visual information."
- 设计动机:既然问题根源是视觉信息利用不足,最直接的办法就是显式提示模型关注视觉
评估设置¶
- 9 个 MLLM:LLaVA (8B/13B/34B)、BLIP-2 (12.1B/13B)、Qwen-VL (9.6B)、GPT-4o、Claude-3.5-Sonnet
- 指标:Accuracy(回答正确率)、MR(记忆化比率,越低越好)
实验关键数据¶
主实验(ConflictVis 准确率)¶
| 模型 | Yes-No | Multiple-Choice | Open-Ended | Avg Acc |
|---|---|---|---|---|
| BLIP-2-12B | 39.3 | — | — | — |
| LLaVA-1.5-13B | 70.6 | 88.0 | 82.9 | 80.5 |
| LLaVA-NeXT-34B | 73.3 | 92.5 | 88.0 | 84.6 |
| Qwen-VL-Chat | 69.8 | 80.5 | 89.3 | 79.9 |
| GPT-4o | 74.9 | 97.1 | 97.9 | 89.9 |
| Claude-3.5-Sonnet | 56.4 | — | — | — |
所有模型在 Yes-No 上的表现 显著差于 MC 和 OE。
缓解方法对比(LLaVA-1.5-13B)¶
| 方法 | Yes-No | MC | OE | Avg |
|---|---|---|---|---|
| Baseline | 70.6 | 88.0 | 82.9 | 80.5 |
| +VCD | 72.7 | 89.3 | 84.2 | 82.1 |
| +PAI | 85.6 | 88.8 | 86.1 | 86.8 |
| +VR (CoT) | 38.0 ↓↓ | 89.8 | 76.7 | 68.2 |
| +FoV (本文) | 82.9 | 89.0 | 81.8 | 84.6 |
| 方法 (LLaVA-NeXT-34B) | Yes-No | MC | OE | Avg |
|---|---|---|---|---|
| Baseline | 73.3 | 92.5 | 88.0 | 84.6 |
| +VR (CoT) | 43.6 ↓↓ | 87.2 | 72.5 | 67.7 |
| +FoV | 85.8 | 92.5 | 89.8 | 89.4 |
关键发现¶
- 约 20% 的回答过度依赖参数化知识,忽视了视觉信息
- Yes-No 问题最容易触发知识覆盖:Claude-3.5-Sonnet 的 MR 达 43.6%,因为 Yes-No 直接呈现反常识表述激发了模型的否定反应
- 动作冲突比场景冲突更难处理:动作准确率 73.9% vs 场景 85.2%,MR 23.8% vs 13.4%。原因是场景有更丰富的背景线索可供推断,而动作依赖精细的视觉细节
- CoT 推理反而有害:让模型"逐步推理"会加重对知识的依赖,因为推理过程中生成的文本不断强化常识推断,导致自相矛盾或拒绝回答
- FoV 简单有效:仅添加"请关注视觉信息"就能将 LLaVA-NeXT-34B 的准确率从 84.6% 提升到 89.4%
- 输入-输出 relevancy 分析表明,失败案例中模型对文本 token 的注意力远超图像 token
亮点与洞察¶
- NPMI 驱动的反常识构造框架具有高度可扩展性:可灵活定义新的冲突类型和 QA 格式,只要有领域语料就能自动生成基准。这个框架的思路可迁移到其他 counterfactual evaluation 场景
- CoT 在冲突场景下适得其反是反直觉的重要发现:推理链会放大对参数化知识的依赖。这对"推理万能"的主流观点提出了有意义的挑战——当前提本身就"反常识"时,推理链反而会将模型引向错误方向
- MR 指标的有/无图像对比设计是一种优雅的因果推断方法,可以精确量化视觉信息对回答的实际影响
局限性 / 可改进方向¶
- ConflictVis 仅有 374 图片、1122 QA,规模偏小,可能存在领域覆盖不足
- 反常识图像由 DALL·E 3 生成,可能存在生成质量问题(如物体变形),需要大量人工筛选
- 概率估计依赖单一模型 Vicuna-13B,可能在benchmark中引入模型特异性偏差
- 未深入分析造成视觉信息利用不足的根本原因(是视觉编码器的问题还是跨模态融合的问题?)
- FoV 提示虽然有效但过于简单,未探索更复杂的提示策略如 visual chain-of-thought
相关工作与启发¶
- vs HallusionBench:HallusionBench 关注信息图表的事实冲突,ConflictVis 关注自然常识冲突,覆盖更广泛的场景和问题类型
- vs AutoHallusion:AutoHallusion 只关注物体存在/空间关系,且仅用 Yes-No 问题;ConflictVis 覆盖 Subject/Action/Place 三维度 + 三种问题类型
- vs PhD:PhD 依赖手动收集,不可扩展;ConflictVis 的 NPMI 框架支持自动化大规模构建
评分¶
- 新颖性: ⭐⭐⭐⭐ 视觉-知识冲突的系统研究是MLLM领域的重要空白,自动化基准构建框架有新意
- 实验充分度: ⭐⭐⭐⭐ 9个模型、3种问题、2种冲突、多种缓解方法对比,分析细致
- 写作质量: ⭐⭐⭐⭐⭐ 动机链清晰,图表丰富(relevancy map分析令人印象深刻),案例分析生动
- 价值: ⭐⭐⭐⭐ 揭示了MLLM的重要缺陷(CoT反而有害),对trustworthy AI研究有启发意义