Mitigating Object Hallucinations via Sentence-Level Early Intervention¶
会议: ICCV 2025
arXiv: 2507.12455
代码: GitHub
领域: multimodal_vlm
关键词: 多模态大模型幻觉, 偏好学习, 早期干预, DPO, 目标检测验证
一句话总结¶
本文提出SENTINEL框架,基于"幻觉在生成早期出现并向后传播"的关键观察,通过域内候选引导、双检测器交叉验证构建句子级偏好数据,使用上下文感知DPO(C-DPO)实现早期干预,在Object HalBench上减少92%幻觉且保持通用能力。
研究背景与动机¶
- 领域现状: 多模态大语言模型(MLLMs)在跨模态理解上取得显著进展,但幻觉问题——生成与图像内容不一致的信息——仍是核心挑战。
- 现有痛点: 现有缓解方案有三类问题:(1) 解码策略(VCD, OPERA, DoLa)增加推理开销和延迟;(2) 偏好对齐方法依赖大型专有模型(GPT)或人工标注,成本高;(3) 输出重写方法引入训练数据与模型原始输出的分布不匹配。
- 核心矛盾: 幻觉强度随生成文本长度递增——越早出现的句子越少幻觉,后续句子幻觉逐渐增多。早期干预至关重要但现有方法未显式利用这一时序传播特性。
- 本文目标: 如何在不依赖外部大模型、不引入分布偏移的前提下,对MLLMs幻觉进行高效早期干预?
- 切入角度: 对模型自身采样输出进行多轮采样→目标检测交叉验证→逐句标记幻觉/非幻觉→构建域内偏好对→DPO训练。
- 核心 idea: 利用模型自身分布内的采样输出,通过双检测器交叉验证逐句标记幻觉,在首次出现幻觉的位置进行偏好学习干预。
方法详解¶
整体框架¶
SENTINEL执行六个步骤:(1)给定图像、提示和上下文\(c\)条件采样多个域内候选;(2)从每个生成句子中提取所有提及的目标;(3)使用两个开放词汇检测器交叉验证目标存在性;(4)将句子分为幻觉/非幻觉类别;(5)将验证过的非幻觉句子追加到上下文引导后续输出;(6)用C-DPO损失微调模型。
关键设计¶
-
域内候选引导(In-domain Candidate Bootstrapping):
- 功能: 无需外部模型,从模型自身采样输出中获取用于偏好学习的正负样本
- 核心思路: 对当前模型执行\(n\)次采样解码,每生成完一个句子即停止。使用SceneGraphParser提取名词实体,然后用GroundingDINO和YOLO World两个开放词汇检测器交叉验证。两个都确认不存在→幻觉;两个都确认存在→事实;矛盾→不确定(忽略以减少检测器偏差)。
- 设计动机: 正负样本来自同一模型分布,保持文体一致性和语言结构不变。双检测器交叉验证比单检测器更可靠(消融实验验证)。
-
上下文感知偏好数据生成(Context-aware Preference Data):
- 功能: 构建携带丰富上下文的偏好数据对,支持迭代式引导
- 核心思路: 正样本分为上下文一致正样本\(y_w^+\)(描述的目标在上下文中被引用)和上下文无关正样本\(y_w^-\)(目标未在上下文中出现)。只使用\(y_w^+\)作为正样本,因为其与上下文关联更强,能增强模型的上下文连贯性。采用迭代上下文引导(ICB):每轮将\(y_w^+\)追加到上下文\(c_{i+1} = c_i + y_w^+\),在新上下文下继续采样和构建偏好对,使数据覆盖逐渐复杂的上下文。
- 设计动机: 上下文一致正样本包含更丰富的上下文信号,帮助模型保持上下文连贯并优先描述显著内容。ICB确保偏好数据在多样上下文下都有代表性,增强泛化。
-
上下文感知DPO(C-DPO):
- 功能: 在句子级进行偏好学习,聚焦幻觉首次出现的位置
- 核心思路: 修改标准DPO为上下文感知版本,将上下文\(c\)作为额外条件输入。最大化生成上下文一致正样本\(y_w^+\)的概率,最小化幻觉负样本\(y_l\)的概率。通过聚焦首次幻觉出现的句子,实现早期干预阻止后续传播。
- 设计动机: 观察验证消除第2句中的幻觉目标后,后续句子幻觉概率显著下降。在首次出现位置干预是效率最高的策略。
损失函数 / 训练策略¶
C-DPO损失与标准DPO结构相同但额外条件化于上下文\(c\)。数据构建是迭代的(ICB),训练只需一轮epoch。无需外部模型重写或人工标注。
实验关键数据¶
主实验¶
| 模型 | 方法 | Object HalBench Resp.↓ | AMBER Hal.↓ | VQAv2↑ | ScienceQA↑ | MM-Vet↑ |
|---|---|---|---|---|---|---|
| LLaVA-1.5-7B | baseline | 52.7 | 35.5 | 78.5 | 66.8 | 31.0 |
| LLaVA-1.5-7B | OPERA | 45.3 | 28.5 | 78.2 | 68.2 | 30.3 |
| LLaVA-1.5-7B | HA-DPO | 37.0 | — | — | — | — |
| LLaVA-1.5-7B | SENTINEL | ~4.2 | ~12.4 | 78.5 | 提升 | 提升 |
Object HalBench幻觉减少约92%,AMBER减少约65%,同时在VQAv2、ScienceQA上保持或提升。
消融实验¶
| 配置 | Object HalBench | 说明 |
|---|---|---|
| Full SENTINEL | 最优 | 完整模型 |
| 单检测器 (GroundingDINO) | 次优 | 交叉验证更可靠 |
| \(y_w^-\)作正样本 | 性能下降 | 上下文无关样本损害泛化 |
| w/o ICB | 下降 | 单一上下文限制泛化 |
| w/o Early Intervention | 下降 | 不聚焦首次出现位置效果差 |
关键发现¶
- 幻觉在文本后段出现概率显著高于前段,验证了"早期干预"的必要性
- 在第2句消除幻觉目标后第3句幻觉概率下降超过50%
- 上下文一致正样本\(y_w^+\)比上下文无关正样本\(y_w^-\)效果显著更好
- SENTINEL是模型无关的,可适用于不同MLLMs
亮点与洞察¶
- "幻觉随文本长度增长"的定量分析简洁有力,位置分布图直观展示了早期干预的必要性
- 完全域内的数据构建pipeline:无外部模型、无重写、无人工标注,成本极低
- 双检测器交叉验证的工程设计:简单有效,比单检测器更鲁棒
- ICB迭代上下文引导是巧妙的数据增强:在渐进复杂的上下文下构建偏好对
局限与展望¶
- 目标检测器本身可能遗漏罕见物体或在复杂场景中误判
- 仅针对物体幻觉(Object Hallucination),未处理属性/关系幻觉
- SceneGraphParser对复杂描述的目标提取可能不完整
- 迭代采样过程的计算开销:每张图需多轮采样和检测
相关工作与启发¶
- vs VCD/OPERA/DoLa: 这些解码策略增加推理开销,SENTINEL不改变推理流程
- vs HA-DPO: 依赖外部模型重写引入分布偏移
- vs EFUF: 同为偏好学习但不聚焦早期干预且泛化性有限
评分¶
- 新颖性: ⭐⭐⭐⭐ "幻觉早期传播+句子级干预"的观察和解决思路新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 幻觉基准+通用能力基准全面覆盖,消融详尽
- 写作质量: ⭐⭐⭐⭐ 动机分析到方法设计的逻辑链条清晰
- 价值: ⭐⭐⭐⭐⭐ 低成本、模型无关、不损害通用能力的幻觉缓解方案,实用价值极高
相关论文¶
- [NeurIPS 2025] Systematic Reward Gap Optimization for Mitigating VLM Hallucinations
- [ICCV 2025] ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models
- [ACL 2025] DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning
- [CVPR 2025] HalLoc: Token-Level Localization of Hallucinations for Vision Language Models
- [NeurIPS 2025] GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity