Robust Multimodal Large Language Models Against Modality Conflict¶
会议: ICML 2025
arXiv: 2507.07151
代码: https://github.com/zmzhang2000/MMMC
领域: 多模态VLM
关键词: 多模态幻觉, 模态冲突, 鲁棒性, 强化学习, SFT
一句话总结¶
揭示 MLLM 幻觉的一个被忽视来源——模态冲突(视觉输入与文本输入之间的固有矛盾),从对象/属性/关系三个层面形式化定义模态冲突,构建 20K 样例的 MMMC 数据集,并提出 prompt engineering、SFT 和 RL 三种缓解方法,其中 RL 效果最佳。
研究背景与动机¶
1. MLLM 幻觉问题¶
多模态大语言模型在 VQA 等任务上表现出色,但容易产生幻觉——生成与输入不一致的信息。现有工作主要关注模型输出与输入之间的不一致。
2. 被忽视的幻觉来源:模态冲突¶
本文关注的是输入本身的矛盾:当文本提问预设了图像中不存在的信息时,MLLM 陷入困境。例如:图片是一只狗在冲浪,用户问"球是什么颜色的?"——图中根本没有球,但模型可能幻觉出"球是绿色的"。
3. 与已有工作的区别¶
已有幻觉缓解方法(改进训练数据、调整解码策略、RLHF 对齐)主要追求更精确的跨模态特征对齐。但即使模态对齐完美,面对固有冲突的输入,模型仍会产生幻觉——这需要从根本上增强模型识别和处理输入矛盾的能力。
方法详解¶
整体框架¶
- 形式化定义三类模态冲突(对象/属性/关系)
- 构建 MMMC 数据集(20K 样本,18K 训练 + 2K 测试)
- 提出三种缓解方法并对比:prompt engineering、SFT、RL
关键设计¶
1. 模态冲突形式化定义¶
设视觉输入为 \(\mathcal{V}\),文本输入为 \(\mathcal{T}\):
对象冲突:文本涉及图中不存在的对象 $\(\text{Obj}(\mathcal{T}) \not\subseteq \text{Obj}(\mathcal{V})\)$
属性冲突:相同对象但属性不同(如文本说红苹果,图片是绿苹果) $\(\text{Attr}(\mathcal{O}_i^{\mathcal{T}}) \neq \text{Attr}(\mathcal{O}_i^{\mathcal{V}})\)$
关系冲突:相同对象但关系不同(如文本说猫在桌上,图片是猫在地上) $\(\text{Rel}(\mathcal{O}_i^{\mathcal{T}}, \mathcal{O}_j^{\mathcal{T}}) \neq \text{Rel}(\mathcal{O}_i^{\mathcal{V}}, \mathcal{O}_j^{\mathcal{V}})\)$
2. MMMC 数据集构建¶
基于 Visual Genome 数据集,通过 4 步构建: 1. 基础问题采样:从原始数据集随机采样问题 2. 关键组件检测:用 LLM 检测图像中的对象/属性/关系 3. 组件替换:将问题中的组件替换为与图像矛盾的信息 4. 答案生成:不直接让 VLM 看图回答(避免幻觉),而是基于文本信息用 LLM 生成正确答案(如"图中没有球") 5. 人工审核确保质量
3. 方法一:Prompt Engineering¶
在问题前加提示:"Please check if the image contains mentioned information and answer the question"
优点:零成本,不需额外训练。缺点:效果取决于模型的指令遵循能力。
4. 方法二:监督微调(SFT)¶
在 MMMC 训练集上用语言模型目标微调:
优点:可利用训练数据。缺点:主要学习目标域的风格适配,对未见数据泛化有限。
5. 方法三:强化学习(RL)¶
将条件生成建模为 MDP,设计奖励函数衡量模型是否正确识别了模态冲突: - 状态:\(s_t = (\mathcal{V}, \mathcal{T}, a_{<t})\) - 动作:\(a_t\)(生成的 token) - 奖励:基于回复是否正确指出冲突
优点:通过试错学习更鲁棒的策略。在实验中效果最好。
实验关键数据¶
主实验:不同 MLLM 在 MMMC 上的表现¶
| 模型 | 对象冲突 Acc | 属性冲突 Acc | 关系冲突 Acc | 平均 |
|---|---|---|---|---|
| InternLM-XComposer2 | 32.1 | 28.5 | 25.3 | 28.6 |
| LLaVA-1.5 | 35.7 | 31.2 | 27.8 | 31.6 |
| Qwen-VL-Chat | 38.2 | 33.6 | 30.1 | 34.0 |
| GPT-4o | 62.5 | 55.3 | 48.7 | 55.5 |
大多数 MLLM 在模态冲突场景下准确率极低(<40%),即使 GPT-4o 也仅 ~55%。
三种方法对比(以 LLaVA-1.5 为例)¶
| 方法 | 对象冲突 | 属性冲突 | 关系冲突 | 平均 | 原始VQA保持 |
|---|---|---|---|---|---|
| 基准(无干预) | 35.7 | 31.2 | 27.8 | 31.6 | 100% |
| Prompt Engineering | 42.3 | 37.8 | 33.5 | 37.9 | ~99% |
| SFT | 68.5 | 62.1 | 56.3 | 62.3 | ~95% |
| RL | 74.2 | 67.8 | 61.5 | 67.8 | ~93% |
- RL 提升最大(+36.2% 平均),但原始 VQA 性能略有下降
- SFT 效果稳定,与原始能力平衡更好
- Prompt Engineering 提升有限但零成本
关键发现¶
- 关系冲突最难处理(所有方法表现最差),因为需要更复杂的空间推理
- RL 方法在三类冲突上都显著优于 SFT,说明试错探索对这类"辨别力"任务更有效
- SFT 在训练分布内效果好但泛化受限——作者指出 SFT 更多学习了"风格"而非"能力"
亮点与洞察¶
- 问题定义的独特性:首次正式定义和研究输入间的模态冲突作为幻觉源,与已有的"输出-输入冲突"视角互补
- 三级冲突分类:对象/属性/关系的层次化定义既系统又实用
- 方法对比的公平性:三种方法代表了从零成本到重训练的完整谱系,消融设计合理
- 数据构建的巧妙:用 LLM 基于文本信息生成答案(而非让 VLM 看图),避免了引入新的幻觉
局限与展望¶
- MMMC 数据集基于 Visual Genome 构建,场景多样性受限于该数据集的覆盖范围
- RL 方法的奖励函数设计仍较简单,结合更精细的冲突检测奖励可能进一步提升
- 未测试在真实用户交互场景中的表现——实际用户的冲突提问可能更隐晦
- 可探索将冲突识别能力集成到预训练阶段而非仅后训练
- SFT+RL 的联合训练(先 SFT 再 RL)的效果待验证
相关工作与启发¶
- vs POPE/CHAIR 等幻觉检测:这些方法评估输出幻觉,本文关注输入端的冲突引发
- vs Longpre et al. (2021):在 LLM 中研究知识冲突,本文扩展到多模态视觉-语言场景
- vs 视觉对抗攻击:对抗攻击修改图像像素,本文通过自然语言制造语义冲突
- 启发:可将模态冲突作为 MLLM 安全评测的标准维度之一
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次形式化定义和系统研究多模态输入冲突
- 实验充分度: ⭐⭐⭐⭐ 多模型评测+三种方法对比+消融充分
- 写作质量: ⭐⭐⭐⭐⭐ 定义清晰、方法层次分明、图示直观
- 价值: ⭐⭐⭐⭐⭐ 开辟了 MLLM 鲁棒性研究的新维度
相关论文¶
- [CVPR 2026] EBMC: Enhance-then-Balance Modality Collaboration for Robust Multimodal Sentiment Analysis
- [ACL 2025] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models
- [CVPR 2025] MBQ: Modality-Balanced Quantization for Large Vision-Language Models
- [CVPR 2026] Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models
- [CVPR 2026] MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models