Mitigating Object Hallucinations via Sentence-Level Early Intervention¶

会议: ICCV 2025
arXiv: 2507.12455
代码: GitHub
领域: multimodal_vlm
关键词: 多模态大模型幻觉, 偏好学习, 早期干预, DPO, 目标检测验证

一句话总结¶

本文提出SENTINEL框架，基于"幻觉在生成早期出现并向后传播"的关键观察，通过域内候选引导、双检测器交叉验证构建句子级偏好数据，使用上下文感知DPO（C-DPO）实现早期干预，在Object HalBench上减少92%幻觉且保持通用能力。

研究背景与动机¶

领域现状: 多模态大语言模型（MLLMs）在跨模态理解上取得显著进展，但幻觉问题——生成与图像内容不一致的信息——仍是核心挑战。
现有痛点: 现有缓解方案有三类问题：(1) 解码策略（VCD, OPERA, DoLa）增加推理开销和延迟；(2) 偏好对齐方法依赖大型专有模型（GPT）或人工标注，成本高；(3) 输出重写方法引入训练数据与模型原始输出的分布不匹配。
核心矛盾: 幻觉强度随生成文本长度递增——越早出现的句子越少幻觉，后续句子幻觉逐渐增多。早期干预至关重要但现有方法未显式利用这一时序传播特性。
本文目标: 如何在不依赖外部大模型、不引入分布偏移的前提下，对MLLMs幻觉进行高效早期干预？
切入角度: 对模型自身采样输出进行多轮采样→目标检测交叉验证→逐句标记幻觉/非幻觉→构建域内偏好对→DPO训练。
核心 idea: 利用模型自身分布内的采样输出，通过双检测器交叉验证逐句标记幻觉，在首次出现幻觉的位置进行偏好学习干预。

方法详解¶

整体框架¶

SENTINEL执行六个步骤：(1)给定图像、提示和上下文\(c\)条件采样多个域内候选；(2)从每个生成句子中提取所有提及的目标；(3)使用两个开放词汇检测器交叉验证目标存在性；(4)将句子分为幻觉/非幻觉类别；(5)将验证过的非幻觉句子追加到上下文引导后续输出；(6)用C-DPO损失微调模型。

关键设计¶

域内候选引导（In-domain Candidate Bootstrapping）:
- 功能: 无需外部模型，从模型自身采样输出中获取用于偏好学习的正负样本
- 核心思路: 对当前模型执行\(n\)次采样解码，每生成完一个句子即停止。使用SceneGraphParser提取名词实体，然后用GroundingDINO和YOLO World两个开放词汇检测器交叉验证。两个都确认不存在→幻觉；两个都确认存在→事实；矛盾→不确定（忽略以减少检测器偏差）。
- 设计动机: 正负样本来自同一模型分布，保持文体一致性和语言结构不变。双检测器交叉验证比单检测器更可靠（消融实验验证）。
上下文感知偏好数据生成（Context-aware Preference Data）:
- 功能: 构建携带丰富上下文的偏好数据对，支持迭代式引导
- 核心思路: 正样本分为上下文一致正样本\(y_w^+\)（描述的目标在上下文中被引用）和上下文无关正样本\(y_w^-\)（目标未在上下文中出现）。只使用\(y_w^+\)作为正样本，因为其与上下文关联更强，能增强模型的上下文连贯性。采用迭代上下文引导（ICB）：每轮将\(y_w^+\)追加到上下文\(c_{i+1} = c_i + y_w^+\)，在新上下文下继续采样和构建偏好对，使数据覆盖逐渐复杂的上下文。
- 设计动机: 上下文一致正样本包含更丰富的上下文信号，帮助模型保持上下文连贯并优先描述显著内容。ICB确保偏好数据在多样上下文下都有代表性，增强泛化。
上下文感知DPO（C-DPO）:
- 功能: 在句子级进行偏好学习，聚焦幻觉首次出现的位置
- 核心思路: 修改标准DPO为上下文感知版本，将上下文\(c\)作为额外条件输入。最大化生成上下文一致正样本\(y_w^+\)的概率，最小化幻觉负样本\(y_l\)的概率。通过聚焦首次幻觉出现的句子，实现早期干预阻止后续传播。
- 设计动机: 观察验证消除第2句中的幻觉目标后，后续句子幻觉概率显著下降。在首次出现位置干预是效率最高的策略。

损失函数 / 训练策略¶

C-DPO损失与标准DPO结构相同但额外条件化于上下文\(c\)。数据构建是迭代的（ICB），训练只需一轮epoch。无需外部模型重写或人工标注。

实验关键数据¶

主实验¶

模型	方法	Object HalBench Resp.↓	AMBER Hal.↓	VQAv2↑	ScienceQA↑	MM-Vet↑
LLaVA-1.5-7B	baseline	52.7	35.5	78.5	66.8	31.0
LLaVA-1.5-7B	OPERA	45.3	28.5	78.2	68.2	30.3
LLaVA-1.5-7B	HA-DPO	37.0	—	—	—	—
LLaVA-1.5-7B	SENTINEL	~4.2	~12.4	78.5	提升	提升

Object HalBench幻觉减少约92%，AMBER减少约65%，同时在VQAv2、ScienceQA上保持或提升。

消融实验¶

配置	Object HalBench	说明
Full SENTINEL	最优	完整模型
单检测器 (GroundingDINO)	次优	交叉验证更可靠
\(y_w^-\)作正样本	性能下降	上下文无关样本损害泛化
w/o ICB	下降	单一上下文限制泛化
w/o Early Intervention	下降	不聚焦首次出现位置效果差

关键发现¶

幻觉在文本后段出现概率显著高于前段，验证了"早期干预"的必要性
在第2句消除幻觉目标后第3句幻觉概率下降超过50%
上下文一致正样本\(y_w^+\)比上下文无关正样本\(y_w^-\)效果显著更好
SENTINEL是模型无关的，可适用于不同MLLMs

亮点与洞察¶

"幻觉随文本长度增长"的定量分析简洁有力，位置分布图直观展示了早期干预的必要性
完全域内的数据构建pipeline：无外部模型、无重写、无人工标注，成本极低
双检测器交叉验证的工程设计：简单有效，比单检测器更鲁棒
ICB迭代上下文引导是巧妙的数据增强：在渐进复杂的上下文下构建偏好对

局限与展望¶

目标检测器本身可能遗漏罕见物体或在复杂场景中误判
仅针对物体幻觉（Object Hallucination），未处理属性/关系幻觉
SceneGraphParser对复杂描述的目标提取可能不完整
迭代采样过程的计算开销：每张图需多轮采样和检测

评分¶

新颖性: ⭐⭐⭐⭐ "幻觉早期传播+句子级干预"的观察和解决思路新颖
实验充分度: ⭐⭐⭐⭐⭐ 幻觉基准+通用能力基准全面覆盖，消融详尽
写作质量: ⭐⭐⭐⭐ 动机分析到方法设计的逻辑链条清晰
价值: ⭐⭐⭐⭐⭐ 低成本、模型无关、不损害通用能力的幻觉缓解方案，实用价值极高