Robust Multimodal Large Language Models Against Modality Conflict¶

会议: ICML 2025
arXiv: 2507.07151
代码: https://github.com/zmzhang2000/MMMC
领域: 多模态VLM
关键词: 多模态幻觉, 模态冲突, 鲁棒性, 强化学习, SFT

一句话总结¶

揭示 MLLM 幻觉的一个被忽视来源——模态冲突（视觉输入与文本输入之间的固有矛盾），从对象/属性/关系三个层面形式化定义模态冲突，构建 20K 样例的 MMMC 数据集，并提出 prompt engineering、SFT 和 RL 三种缓解方法，其中 RL 效果最佳。

研究背景与动机¶

1. MLLM 幻觉问题¶

多模态大语言模型在 VQA 等任务上表现出色，但容易产生幻觉——生成与输入不一致的信息。现有工作主要关注模型输出与输入之间的不一致。

2. 被忽视的幻觉来源：模态冲突¶

本文关注的是输入本身的矛盾：当文本提问预设了图像中不存在的信息时，MLLM 陷入困境。例如：图片是一只狗在冲浪，用户问"球是什么颜色的？"——图中根本没有球，但模型可能幻觉出"球是绿色的"。

3. 与已有工作的区别¶

已有幻觉缓解方法（改进训练数据、调整解码策略、RLHF 对齐）主要追求更精确的跨模态特征对齐。但即使模态对齐完美，面对固有冲突的输入，模型仍会产生幻觉——这需要从根本上增强模型识别和处理输入矛盾的能力。

方法详解¶

整体框架¶

形式化定义三类模态冲突（对象/属性/关系）
构建 MMMC 数据集（20K 样本，18K 训练 + 2K 测试）
提出三种缓解方法并对比：prompt engineering、SFT、RL

关键设计¶

1. 模态冲突形式化定义¶

设视觉输入为 $\mathcal{V}$，文本输入为 $\mathcal{T}$：

对象冲突：文本涉及图中不存在的对象 $$\text{Obj}(\mathcal{T}) \not\subseteq \text{Obj}(\mathcal{V})$$

属性冲突：相同对象但属性不同（如文本说红苹果，图片是绿苹果） $$\text{Attr}(\mathcal{O}_i^{\mathcal{T}}) \neq \text{Attr}(\mathcal{O}_i^{\mathcal{V}})$$

关系冲突：相同对象但关系不同（如文本说猫在桌上，图片是猫在地上） $$\text{Rel}(\mathcal{O}_i^{\mathcal{T}}, \mathcal{O}_j^{\mathcal{T}}) \neq \text{Rel}(\mathcal{O}_i^{\mathcal{V}}, \mathcal{O}_j^{\mathcal{V}})$$

2. MMMC 数据集构建¶

基于 Visual Genome 数据集，通过 4 步构建： 1. 基础问题采样：从原始数据集随机采样问题 2. 关键组件检测：用 LLM 检测图像中的对象/属性/关系 3. 组件替换：将问题中的组件替换为与图像矛盾的信息 4. 答案生成：不直接让 VLM 看图回答（避免幻觉），而是基于文本信息用 LLM 生成正确答案（如"图中没有球"） 5. 人工审核确保质量

3. 方法一：Prompt Engineering¶

在问题前加提示："Please check if the image contains mentioned information and answer the question"

\[\mathcal{A} \sim \pi_\theta(\mathcal{A}|\mathcal{V}, p(\mathcal{T}))\]

优点：零成本，不需额外训练。缺点：效果取决于模型的指令遵循能力。

4. 方法二：监督微调（SFT）¶

在 MMMC 训练集上用语言模型目标微调：

\[\pi_\theta^* = \arg\min_\theta \mathbb{E}[-\log \pi_\theta(\mathcal{A}|\mathcal{V}, \mathcal{T})]\]

优点：可利用训练数据。缺点：主要学习目标域的风格适配，对未见数据泛化有限。

5. 方法三：强化学习（RL）¶

将条件生成建模为 MDP，设计奖励函数衡量模型是否正确识别了模态冲突： - 状态：$s_t = (\mathcal{V}, \mathcal{T}, a_{<t})$ - 动作：$a_t$（生成的 token） - 奖励：基于回复是否正确指出冲突

优点：通过试错学习更鲁棒的策略。在实验中效果最好。

实验关键数据¶

主实验：不同 MLLM 在 MMMC 上的表现¶

模型	对象冲突 Acc	属性冲突 Acc	关系冲突 Acc	平均
InternLM-XComposer2	32.1	28.5	25.3	28.6
LLaVA-1.5	35.7	31.2	27.8	31.6
Qwen-VL-Chat	38.2	33.6	30.1	34.0
GPT-4o	62.5	55.3	48.7	55.5

大多数 MLLM 在模态冲突场景下准确率极低（<40%），即使 GPT-4o 也仅 ~55%。

三种方法对比（以 LLaVA-1.5 为例）¶

方法	对象冲突	属性冲突	关系冲突	平均	原始VQA保持
基准（无干预）	35.7	31.2	27.8	31.6	100%
Prompt Engineering	42.3	37.8	33.5	37.9	~99%
SFT	68.5	62.1	56.3	62.3	~95%
RL	74.2	67.8	61.5	67.8	~93%

RL 提升最大（+36.2% 平均），但原始 VQA 性能略有下降
SFT 效果稳定，与原始能力平衡更好
Prompt Engineering 提升有限但零成本

关键发现¶

关系冲突最难处理（所有方法表现最差），因为需要更复杂的空间推理
RL 方法在三类冲突上都显著优于 SFT，说明试错探索对这类"辨别力"任务更有效
SFT 在训练分布内效果好但泛化受限——作者指出 SFT 更多学习了"风格"而非"能力"

亮点与洞察¶

问题定义的独特性：首次正式定义和研究输入间的模态冲突作为幻觉源，与已有的"输出-输入冲突"视角互补
三级冲突分类：对象/属性/关系的层次化定义既系统又实用
方法对比的公平性：三种方法代表了从零成本到重训练的完整谱系，消融设计合理
数据构建的巧妙：用 LLM 基于文本信息生成答案（而非让 VLM 看图），避免了引入新的幻觉

局限与展望¶

MMMC 数据集基于 Visual Genome 构建，场景多样性受限于该数据集的覆盖范围
RL 方法的奖励函数设计仍较简单，结合更精细的冲突检测奖励可能进一步提升
未测试在真实用户交互场景中的表现——实际用户的冲突提问可能更隐晦
可探索将冲突识别能力集成到预训练阶段而非仅后训练
SFT+RL 的联合训练（先 SFT 再 RL）的效果待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次形式化定义和系统研究多模态输入冲突
实验充分度: ⭐⭐⭐⭐ 多模型评测+三种方法对比+消融充分
写作质量: ⭐⭐⭐⭐⭐ 定义清晰、方法层次分明、图示直观
价值: ⭐⭐⭐⭐⭐ 开辟了 MLLM 鲁棒性研究的新维度