Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization¶
会议: AAAI2026
arXiv: 2601.06224
代码: ZJU-OmniAI/OMNEX-VL
领域: multimodal_vlm
关键词: MLLM hallucination, reinforcement learning, GRPO, caption reward, NTK similarity, InfoNCE
一句话总结¶
针对多模态大模型(MLLM)在强化学习训练中产生幻觉的三大根因——视觉误解、探索多样性不足、样本冲突——分别提出 Caption Reward、奖励方差引导的样本选择、以及基于 NTK 相似度的 InfoNCE 正则化,在多个基准上显著降低幻觉率。
背景与动机¶
多模态大模型在视觉问答、视频理解等任务上表现优异,但 幻觉问题(生成流畅但与视觉输入事实不一致的回答)严重制约了实际部署,尤其在安全关键场景。近期大量工作将强化学习(RL)引入 MLLM 以提升推理能力(如 DeepSeek-R1 风格的 GRPO 训练),但 RL 训练反而会 加剧幻觉:模型陷入语义冗余推理循环、思考过程与最终答案不匹配等问题。
作者系统分析了 RL 训练中幻觉的三大根因:
- 视觉误解(Visual Misinterpretation):模型在推理链早期产生不准确的视觉描述,后续推理被锚定到错误信息上;或者模型笼统关注输入,生成冗余无关推理
- 探索多样性不足(Limited Exploration):策略优化阶段采样多样性不够,导致输出过度自信、过拟合
- 样本冲突(Sample Conflict):对一个样本的梯度更新无意中破坏模型对其他无关样本的预测,引入虚假关联
核心问题¶
如何在 MLLM 的 RL 训练过程中同时解决视觉锚定不准确、策略探索不充分、以及样本间梯度干扰这三类幻觉来源?
方法详解¶
整体框架包含三个模块,在 GRPO 基础上联合使用:
1. Visual-Grounded Reasoning Enhancement(视觉锚定推理增强)¶
重新定义推理范式:在标准的 thinking → answer 流程之前,插入两个新阶段:
- Planning 阶段:提前定位与问题相关的视觉区域
- Caption 阶段:对这些区域生成简洁的文本描述,作为后续推理的中间锚点
完整流程变为:planning → caption → thinking → answer。
Caption Reward:提取模型生成的 caption,将其与问题(不含图像)输入一个独立的 LLM。若该 LLM 仅凭 caption 即可正确回答问题,则给予正奖励,否则奖励为零。这确保了 caption 准确反映视觉内容,避免错误描述在推理链中传播。
2. Reward Variance-Guided Sample Selection(奖励方差引导样本选择)¶
通过对 GRPO 损失关于 logits 求梯度,论文推导出关键结论:
- 正 advantage(\(A_{i,t} > 0\))→ 分布变尖锐(sharpening):强化正确答案
- 负 advantage(\(A_{i,t} < 0\))→ 分布变平坦(flattening):削弱错误高置信输出
据此,论文将样本分为三类:
| 类型 | 特征 | 训练效果 |
|---|---|---|
| Easy | 高均值、低方差 | 过拟合风险,分布过度尖锐 |
| Hard | 低均值、低方差 | 模型无法学习,分布持续平坦 |
| Medium | 高方差 | 最有价值:先探索后收敛,理想学习轨迹 |
具体做法:对每个输入生成 64 个响应,计算奖励的均值和方差,仅保留方差最高的 50% 样本用于 RL 训练。
3. Conflict-Aware Regularization(冲突感知正则化)¶
论文基于 Neural Tangent Kernel(NTK)分析样本间的梯度干扰:
其中 \(\mathcal{K}^t(x_o, x_u)\) 是 NTK 相似度。当 NTK 相似度过高时,对一个样本的更新会大幅改变模型对另一个不相关样本的预测。
关键洞察:不能简单最小化 NTK 相似度(会抑制有益交互),而应 调节到合理范围。
具体做法:
- 用最后一层 log-probability 梯度的余弦相似度近似 NTK 相似度
- 基于阈值 \(\tau\) 将样本对分为正对(相似度过低,需拉近)和负对(相似度过高,需推远)
- 应用 InfoNCE 损失调整:\(\mathcal{L} = -\frac{1}{B}\sum_{i=1}^{B}\log\frac{\sum_{j\in\mathcal{P}(i)}\exp(\text{sim}(f_i,f_j))}{\sum_{k=1}^{B}\mathbb{I}_{[k\neq i]}\exp(\text{sim}(f_i,f_k))}\)
- 实验确定最优阈值 \(\tau = 0.54\)
实验关键数据¶
基于 Qwen-VL-2.5-7B,在多个基准上对比:
| 模型 | MMVU | VideoHallucer | POPE | MMBench |
|---|---|---|---|---|
| Qwen-VL-2.5-7B(基线) | 57.6 | 46.5 | 84.4 | 86.3 |
| + SFT | 62.7 | 43.5 | 82.2 | 83.9 |
| + GRPO | 62.1 | 42.3↓ | 83.6 | 86.8 |
| + Ours | 65.6 | 50.8 | 88.7 | 88.6 |
| GPT-4o | 75.4 | 53.3 | 86.9 | 83.4 |
关键发现:
- 标准 GRPO 训练 降低 了 VideoHallucer 分数(46.5→42.3),证实 RL 确实会引入幻觉
- 本文方法在 POPE 上达到 88.7%(超过 GPT-4o 的 86.9%),在 MMBench 上达到 88.6%(超过 GPT-4o 的 83.4%)
- MMVU 上 65.6% 为所有开源模型最高
消融实验:
- 移除 Caption + Caption Reward:MMVU 65.6→62.6,POPE 88.7→85.2
- 仅用 Easy/Hard 样本训练:性能均低于 Medium 样本
- 移除 InfoNCE Loss:MMVU 65.6→63.8,POPE 88.7→86.8
亮点¶
- 问题分析深入:从理论层面推导了 RL 训练中正负 advantage 对输出分布的影响,为样本选择提供了有说服力的理论支撑
- NTK 视角新颖:首次将 NTK 相似度与 MLLM 训练中的样本冲突联系起来,并提出"调节而非消除"的思路
- Caption Reward 设计巧妙:通过"仅凭 caption 能否回答问题"来间接评估视觉锚定质量,无需额外标注
- 三个模块正交互补:分别针对推理链入口(caption)、样本选择(方差)、优化过程(NTK 正则)三个层面
局限性 / 可改进方向¶
- 领域分类有误:论文主题是 MLLM 幻觉缓解,归类到 object_detection 不太合适,应属于 multimodal_vlm
- 计算开销大:每个样本生成 64 个响应来估计方差,再加上 NTK 相似度计算和 InfoNCE 损失,训练成本显著增加
- 阈值 \(\tau\) 需调优:NTK 相似度阈值 0.54 是通过实验搜索得到的,不同数据集可能需要不同值
- 基准有限:主要在视频理解和幻觉检测基准上验证,缺少更广泛的视觉推理任务(如 visual grounding、referring expression)
- 与 GPT-4o 差距:在 MMVU(65.6 vs 75.4)和 VideoHallucer(50.8 vs 53.3)上仍有差距
与相关工作的对比¶
| 方法 | 核心思路 | 与本文差异 |
|---|---|---|
| Vision-R1 | 渐进思维抑制训练 + 解耦奖励 | 未处理视觉描述错误传播问题 |
| R1-VL | StepGRPO 逐步一致性 | 未考虑样本间梯度冲突 |
| Video-R1 | 时序一致性奖励 | 仅针对视频时序,未处理一般性幻觉 |
| GRPO 标准训练 | 组相对策略优化 | 本文实验表明标准 GRPO 会加剧幻觉 |
本文的核心差异在于 同时 从推理范式、采样策略、优化正则化三个层面系统性地解决幻觉问题。
启发与关联¶
- Caption Reward 的思路可泛化:用独立模型验证中间推理产物的质量,可推广到其他需要过程监督的场景
- 方差引导选择与 curriculum learning 有联系:medium 样本本质上是模型处于学习边界的样本,类似于 zone of proximal development
- NTK 正则化可用于其他多任务/ multi-sample 训练:任何需要减少样本间梯度干扰的场景都可能受益
评分¶
- 新颖性: ⭐⭐⭐⭐ — NTK 视角和 Caption Reward 设计有新意
- 实验充分度: ⭐⭐⭐⭐ — 消融完整,但基准范围可更广
- 写作质量: ⭐⭐⭐⭐ — 问题分析清晰,三模块逻辑连贯
- 价值: ⭐⭐⭐⭐ — 系统性解决 RL 训练中的 MLLM 幻觉问题,实用性强