Insight Over Sight: Exploring the Vision-Knowledge Conflicts in Multimodal LLMs¶

会议: ACL 2025
arXiv: 2410.08145
代码: 无（提供了benchmark数据）
领域: 多模态VLM
关键词: 视觉-知识冲突, MLLM幻觉, 反常识基准, 记忆化比率, Focus-on-Vision提示

一句话总结¶

首次系统探索 MLLM 中常识级别的视觉-知识冲突问题，提出自动化框架构建 ConflictVis 基准（374 图 + 1122 QA），发现 MLLM 在约 20% 的冲突场景中过度依赖参数化知识（尤其是 Yes-No 和动作类问题），并提出 Focus-on-Vision 提示策略进行缓解。

研究背景与动机¶

领域现状：MLLM（如 GPT-4o、LLaVA）通过整合视觉编码器和 LLM 在图像描述、VQA 等任务上表现出色。然而 LLM 固有的知识冲突问题（参数化知识 vs 外部信息）在多模态场景中演变为一种新形式——视觉输入与模型内在常识知识的冲突。
现有痛点：
现有研究对视觉-知识冲突的评估不够系统：HallusionBench 仅用手工编辑的信息图表、AutoHallusion 只关注物体存在/空间关系、PhD 依赖手动收集
缺乏自动化的大规模冲突样本生成流程
对冲突的分类不够细致（未区分动作冲突和场景冲突）
问题类型单一（大多只有 Yes-No 问题）
核心矛盾：当视觉信息与 LLM 的常识知识矛盾时（如"女服务员在厨房签账单"而非"洗碗"），模型倾向于忽视视觉信息而使用内在知识回答。这本质上是 MLLM 中视觉信息利用不足的问题，也是幻觉的重要来源。
本文要解决什么？
如何自动化地构建高质量的反常识视觉基准
MLLM 在不同冲突类型和问题格式下的表现模式是什么
现有缓解方法（VCD、PAI、CoT）是否有效，有没有更好的策略
切入角度：利用共现分析（NPMI）自动发现低共现的 ⟨Subject, Action, Place⟩ 三元组作为反常识场景，结合文生图模型生成对应图像，形成自动化的基准构建 pipeline。
核心 idea 一句话：用 NPMI 共现统计自动构建反常识三元组，生成图像和多类型 QA，系统评估 MLLM 在视觉-知识冲突下的"记忆化"行为。

方法详解¶

整体框架¶

输入语料（OMCS 常识数据集） → 知识组件提取（提取 Subject/Action/Place 短语） → 反常识查询构造（NPMI 筛选高共现上下文 + 低共现目标） → 多模态输入生成（DALL·E 3 生成图像 + 模板生成 Yes-No/MC/OE 三类 QA） → 人工质控 → ConflictVis 基准（374 图，1122 QA）

关键设计¶

自动化反常识查询构造:
做什么：自动发现与常识矛盾的三元组场景
核心思路：
- 从 OMCS 语料提取高频 Subject（100个）、Action（150个）、Place（150个）短语
- 用 NPMI 衡量组件间共现关系：\(\text{NPMI}(C_X; C_Y) = \frac{\text{PMI}(C_X; C_Y)}{-\log_2 P(C_X, C_Y)}\)
- 高共现上下文：选择 NPMI 最高的 Top-K 个 (Subject, Place) 或 (Subject, Action) 对作为"正常背景"
- 低共现目标：在给定上下文下，选择 NPMI 最低的 Top-M 个 Action/Place 作为反常识元素
- 用 LLM (Vicuna-13B) 估计共现概率 \(P(\cdot)\)
设计动机：NPMI 归一化避免了高频词的偏差，自动化方法比手动构建更具可扩展性。高共现上下文确保场景本身是"正常"的，仅有一个异常元素
多类型问题生成:
做什么：为每个反常识场景生成三种问题类型
设计：
- Yes-No："Is the waitress in the kitchen signing a bill?" — 直接呈现反常识表述
- Multiple-Choice：正确选项是反常识动作/场景，干扰项是常识选项
- Open-Ended："What is the waitress doing in the kitchen?" — 需要模型自由回答
设计动机：不同问题类型对模型施加不同程度的知识对抗压力，Yes-No 最直接触发常识否定反应
记忆化比率 (Memorization Ratio, MR):
做什么：量化模型对参数化知识的依赖程度
核心公式：\(MR = \frac{P_K}{P_K + P_V}\)
- \(P_K\)：回答与无图像时一致（依赖知识）
- \(P_V\)：回答与视觉信息一致（利用视觉）
通过对比有图/无图两种条件下的回答来分类，是一种巧妙的因果分析方法
Focus-on-Vision (FoV) 提示策略:
做什么：简单但有效的缓解策略
实现：在文本查询后附加 "Please focus on the visual information."
设计动机：既然问题根源是视觉信息利用不足，最直接的办法就是显式提示模型关注视觉

评估设置¶

9 个 MLLM：LLaVA (8B/13B/34B)、BLIP-2 (12.1B/13B)、Qwen-VL (9.6B)、GPT-4o、Claude-3.5-Sonnet
指标：Accuracy（回答正确率）、MR（记忆化比率，越低越好）

实验关键数据¶

主实验（ConflictVis 准确率）¶

模型	Yes-No	Multiple-Choice	Open-Ended	Avg Acc
BLIP-2-12B	39.3	—	—	—
LLaVA-1.5-13B	70.6	88.0	82.9	80.5
LLaVA-NeXT-34B	73.3	92.5	88.0	84.6
Qwen-VL-Chat	69.8	80.5	89.3	79.9
GPT-4o	74.9	97.1	97.9	89.9
Claude-3.5-Sonnet	56.4	—	—	—

所有模型在 Yes-No 上的表现 显著差于 MC 和 OE。

缓解方法对比（LLaVA-1.5-13B）¶

方法	Yes-No	MC	OE	Avg
Baseline	70.6	88.0	82.9	80.5
+VCD	72.7	89.3	84.2	82.1
+PAI	85.6	88.8	86.1	86.8
+VR (CoT)	38.0 ↓↓	89.8	76.7	68.2
+FoV (本文)	82.9	89.0	81.8	84.6

方法 (LLaVA-NeXT-34B)	Yes-No	MC	OE	Avg
Baseline	73.3	92.5	88.0	84.6
+VR (CoT)	43.6 ↓↓	87.2	72.5	67.7
+FoV	85.8	92.5	89.8	89.4

关键发现¶

约 20% 的回答过度依赖参数化知识，忽视了视觉信息
Yes-No 问题最容易触发知识覆盖：Claude-3.5-Sonnet 的 MR 达 43.6%，因为 Yes-No 直接呈现反常识表述激发了模型的否定反应
动作冲突比场景冲突更难处理：动作准确率 73.9% vs 场景 85.2%，MR 23.8% vs 13.4%。原因是场景有更丰富的背景线索可供推断，而动作依赖精细的视觉细节
CoT 推理反而有害：让模型"逐步推理"会加重对知识的依赖，因为推理过程中生成的文本不断强化常识推断，导致自相矛盾或拒绝回答
FoV 简单有效：仅添加"请关注视觉信息"就能将 LLaVA-NeXT-34B 的准确率从 84.6% 提升到 89.4%
输入-输出 relevancy 分析表明，失败案例中模型对文本 token 的注意力远超图像 token

亮点与洞察¶

NPMI 驱动的反常识构造框架具有高度可扩展性：可灵活定义新的冲突类型和 QA 格式，只要有领域语料就能自动生成基准。这个框架的思路可迁移到其他 counterfactual evaluation 场景
CoT 在冲突场景下适得其反是反直觉的重要发现：推理链会放大对参数化知识的依赖。这对"推理万能"的主流观点提出了有意义的挑战——当前提本身就"反常识"时，推理链反而会将模型引向错误方向
MR 指标的有/无图像对比设计是一种优雅的因果推断方法，可以精确量化视觉信息对回答的实际影响

局限性 / 可改进方向¶

ConflictVis 仅有 374 图片、1122 QA，规模偏小，可能存在领域覆盖不足
反常识图像由 DALL·E 3 生成，可能存在生成质量问题（如物体变形），需要大量人工筛选
概率估计依赖单一模型 Vicuna-13B，可能在benchmark中引入模型特异性偏差
未深入分析造成视觉信息利用不足的根本原因（是视觉编码器的问题还是跨模态融合的问题？）
FoV 提示虽然有效但过于简单，未探索更复杂的提示策略如 visual chain-of-thought

评分¶

新颖性: ⭐⭐⭐⭐ 视觉-知识冲突的系统研究是MLLM领域的重要空白，自动化基准构建框架有新意
实验充分度: ⭐⭐⭐⭐ 9个模型、3种问题、2种冲突、多种缓解方法对比，分析细致
写作质量: ⭐⭐⭐⭐⭐ 动机链清晰，图表丰富（relevancy map分析令人印象深刻），案例分析生动
价值: ⭐⭐⭐⭐ 揭示了MLLM的重要缺陷（CoT反而有害），对trustworthy AI研究有启发意义