跳转至

Mitigating Object Hallucinations via Sentence-Level Early Intervention

会议: ICCV 2025
arXiv: 2507.12455
代码: GitHub
领域: multimodal_vlm
关键词: 多模态大模型幻觉, 偏好学习, 早期干预, DPO, 目标检测验证

一句话总结

本文提出SENTINEL框架,基于"幻觉在生成早期出现并向后传播"的关键观察,通过域内候选引导、双检测器交叉验证构建句子级偏好数据,使用上下文感知DPO(C-DPO)实现早期干预,在Object HalBench上减少92%幻觉且保持通用能力。

研究背景与动机

  1. 领域现状: 多模态大语言模型(MLLMs)在跨模态理解上取得显著进展,但幻觉问题——生成与图像内容不一致的信息——仍是核心挑战。
  2. 现有痛点: 现有缓解方案有三类问题:(1) 解码策略(VCD, OPERA, DoLa)增加推理开销和延迟;(2) 偏好对齐方法依赖大型专有模型(GPT)或人工标注,成本高;(3) 输出重写方法引入训练数据与模型原始输出的分布不匹配。
  3. 核心矛盾: 幻觉强度随生成文本长度递增——越早出现的句子越少幻觉,后续句子幻觉逐渐增多。早期干预至关重要但现有方法未显式利用这一时序传播特性。
  4. 本文目标: 如何在不依赖外部大模型、不引入分布偏移的前提下,对MLLMs幻觉进行高效早期干预?
  5. 切入角度: 对模型自身采样输出进行多轮采样→目标检测交叉验证→逐句标记幻觉/非幻觉→构建域内偏好对→DPO训练。
  6. 核心 idea: 利用模型自身分布内的采样输出,通过双检测器交叉验证逐句标记幻觉,在首次出现幻觉的位置进行偏好学习干预。

方法详解

整体框架

SENTINEL执行六个步骤:(1)给定图像、提示和上下文\(c\)条件采样多个域内候选;(2)从每个生成句子中提取所有提及的目标;(3)使用两个开放词汇检测器交叉验证目标存在性;(4)将句子分为幻觉/非幻觉类别;(5)将验证过的非幻觉句子追加到上下文引导后续输出;(6)用C-DPO损失微调模型。

关键设计

  1. 域内候选引导(In-domain Candidate Bootstrapping):

    • 功能: 无需外部模型,从模型自身采样输出中获取用于偏好学习的正负样本
    • 核心思路: 对当前模型执行\(n\)次采样解码,每生成完一个句子即停止。使用SceneGraphParser提取名词实体,然后用GroundingDINO和YOLO World两个开放词汇检测器交叉验证。两个都确认不存在→幻觉;两个都确认存在→事实;矛盾→不确定(忽略以减少检测器偏差)。
    • 设计动机: 正负样本来自同一模型分布,保持文体一致性和语言结构不变。双检测器交叉验证比单检测器更可靠(消融实验验证)。
  2. 上下文感知偏好数据生成(Context-aware Preference Data):

    • 功能: 构建携带丰富上下文的偏好数据对,支持迭代式引导
    • 核心思路: 正样本分为上下文一致正样本\(y_w^+\)(描述的目标在上下文中被引用)和上下文无关正样本\(y_w^-\)(目标未在上下文中出现)。只使用\(y_w^+\)作为正样本,因为其与上下文关联更强,能增强模型的上下文连贯性。采用迭代上下文引导(ICB):每轮将\(y_w^+\)追加到上下文\(c_{i+1} = c_i + y_w^+\),在新上下文下继续采样和构建偏好对,使数据覆盖逐渐复杂的上下文。
    • 设计动机: 上下文一致正样本包含更丰富的上下文信号,帮助模型保持上下文连贯并优先描述显著内容。ICB确保偏好数据在多样上下文下都有代表性,增强泛化。
  3. 上下文感知DPO(C-DPO):

    • 功能: 在句子级进行偏好学习,聚焦幻觉首次出现的位置
    • 核心思路: 修改标准DPO为上下文感知版本,将上下文\(c\)作为额外条件输入。最大化生成上下文一致正样本\(y_w^+\)的概率,最小化幻觉负样本\(y_l\)的概率。通过聚焦首次幻觉出现的句子,实现早期干预阻止后续传播。
    • 设计动机: 观察验证消除第2句中的幻觉目标后,后续句子幻觉概率显著下降。在首次出现位置干预是效率最高的策略。

损失函数 / 训练策略

C-DPO损失与标准DPO结构相同但额外条件化于上下文\(c\)。数据构建是迭代的(ICB),训练只需一轮epoch。无需外部模型重写或人工标注。

实验关键数据

主实验

模型 方法 Object HalBench Resp.↓ AMBER Hal.↓ VQAv2↑ ScienceQA↑ MM-Vet↑
LLaVA-1.5-7B baseline 52.7 35.5 78.5 66.8 31.0
LLaVA-1.5-7B OPERA 45.3 28.5 78.2 68.2 30.3
LLaVA-1.5-7B HA-DPO 37.0
LLaVA-1.5-7B SENTINEL ~4.2 ~12.4 78.5 提升 提升

Object HalBench幻觉减少约92%,AMBER减少约65%,同时在VQAv2、ScienceQA上保持或提升。

消融实验

配置 Object HalBench 说明
Full SENTINEL 最优 完整模型
单检测器 (GroundingDINO) 次优 交叉验证更可靠
\(y_w^-\)作正样本 性能下降 上下文无关样本损害泛化
w/o ICB 下降 单一上下文限制泛化
w/o Early Intervention 下降 不聚焦首次出现位置效果差

关键发现

  • 幻觉在文本后段出现概率显著高于前段,验证了"早期干预"的必要性
  • 在第2句消除幻觉目标后第3句幻觉概率下降超过50%
  • 上下文一致正样本\(y_w^+\)比上下文无关正样本\(y_w^-\)效果显著更好
  • SENTINEL是模型无关的,可适用于不同MLLMs

亮点与洞察

  • "幻觉随文本长度增长"的定量分析简洁有力,位置分布图直观展示了早期干预的必要性
  • 完全域内的数据构建pipeline:无外部模型、无重写、无人工标注,成本极低
  • 双检测器交叉验证的工程设计:简单有效,比单检测器更鲁棒
  • ICB迭代上下文引导是巧妙的数据增强:在渐进复杂的上下文下构建偏好对

局限与展望

  • 目标检测器本身可能遗漏罕见物体或在复杂场景中误判
  • 仅针对物体幻觉(Object Hallucination),未处理属性/关系幻觉
  • SceneGraphParser对复杂描述的目标提取可能不完整
  • 迭代采样过程的计算开销:每张图需多轮采样和检测

相关工作与启发

  • vs VCD/OPERA/DoLa: 这些解码策略增加推理开销,SENTINEL不改变推理流程
  • vs HA-DPO: 依赖外部模型重写引入分布偏移
  • vs EFUF: 同为偏好学习但不聚焦早期干预且泛化性有限

评分

  • 新颖性: ⭐⭐⭐⭐ "幻觉早期传播+句子级干预"的观察和解决思路新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 幻觉基准+通用能力基准全面覆盖,消融详尽
  • 写作质量: ⭐⭐⭐⭐ 动机分析到方法设计的逻辑链条清晰
  • 价值: ⭐⭐⭐⭐⭐ 低成本、模型无关、不损害通用能力的幻觉缓解方案,实用价值极高

相关论文