Activation Steering Decoding: Mitigating Hallucination in Large Vision-Language Models through Bidirectional Hidden State Intervention¶
会议: ACL 2025
arXiv: 无
代码: 无
领域: 多模态VLM
关键词: 幻觉缓解, 激活引导, 对比解码, 无训练推理干预, 视觉-语言模型
一句话总结¶
本文提出 ASD(Activation Steering Decoding),一种无需训练的推理时幻觉缓解方法,通过在 LVLM 的中间隐藏状态中识别幻觉方向模式,利用双向引导和对比解码来抑制幻觉输出,同时保持模型在通用视觉理解任务上的性能。
研究背景与动机¶
领域现状:大视觉-语言模型(LVLM)在多模态理解方面展现了强大能力,但它们经常产生"幻觉"(hallucination)——生成与输入图像不一致的内容。这一问题严重阻碍了 LVLM 在对事实准确性要求较高的应用场景(如医疗影像分析、自动驾驶描述、视觉事实检查等)中的部署。
现有痛点:现有的幻觉缓解方法主要分为两类:(1) 训练时方法——需要额外的高质量数据和大量计算资源进行模型微调(如 RLHF、DPO),成本高且修改了模型权重;(2) 推理时对比解码方法——如 VCD(Visual Contrastive Decoding),通过对比扰动版本和原始版本的输出分布来抑制幻觉,但这些方法通常只从输出空间(logits层面)进行干预,没有深入利用模型内部的激活信息。
核心矛盾:幻觉不仅仅是输出层面的问题——它根植于模型在推理过程中内部激活状态的偏差。如果只在输出阶段进行修正,相当于"治标不治本",难以从根本上消除幻觉的产生源头。而直接干预内部激活又面临难题:如何准确定位幻觉在激活空间中的表征模式?
本文目标:(1) 研究幻觉内容在 LVLM 中间层激活空间中的表征特征;(2) 设计一种能在激活空间中直接抑制幻觉模式的无训练干预方法;(3) 确保干预不影响模型的通用视觉理解能力。
切入角度:作者通过分析 LVLM 在生成过程中的中间隐藏状态,发现幻觉内容和事实内容在激活空间中呈现出可识别的、方向性的差异模式。这意味着可以通过在特定方向上"引导"(steering)激活状态来抑制幻觉产生。这一发现与最近在 LLM 安全性领域成功应用的激活引导(activation steering)技术思路一脉相承。
核心 idea:先用一个小校准集识别激活空间中幻觉的方向模式,然后在推理时通过双向隐藏状态干预同时进行正向引导(朝向事实)和负向抑制(远离幻觉),配合对比解码机制最终生成更可靠的输出。
方法详解¶
整体框架¶
ASD 的工作流程分为两个阶段:离线阶段,使用一个小型校准数据集(包含已知事实和幻觉的样本对),提取并分析模型在生成事实内容和幻觉内容时的中间层激活差异,学习到幻觉的方向向量(steering vector);在线推理阶段,对于每个输入图像和问题,在模型前向传播过程中对选定层的隐藏状态进行双向干预——正向引导朝向事实方向、负向抑制远离幻觉方向,然后对比干预后和原始的输出分布来生成最终 token。
关键设计¶
-
幻觉方向模式识别(校准阶段):
- 功能:从小型校准集中提取激活空间中的幻觉方向向量
- 核心思路:准备一组校准样本,每个样本包含同一图像-问题输入下的事实正确回答和幻觉错误回答。将这些样本对分别输入模型,在选定的中间层提取隐藏状态。通过计算事实回答和幻觉回答隐藏状态的差异方向(例如使用 PCA 或均值差),得到一个幻觉方向向量 \(\mathbf{v}_h\),该向量指示激活空间中"从事实到幻觉"的位移方向。校准集不需要很大——因为幻觉的方向模式在不同样本间具有一致性
- 设计动机:与其试图理解每种幻觉的具体机制,不如从统计角度概括幻觉的共性特征。少量校准数据就能捕捉到这种共性,使得方法极其轻量
-
双向隐藏状态干预(推理时引导):
- 功能:在推理过程中对模型中间层激活进行定向修改以抑制幻觉
- 核心思路:在模型前向传播的选定层,对隐藏状态进行两个方向的同时干预:(1) 正向引导——将隐藏状态沿幻觉方向的反方向(即事实方向 \(-\mathbf{v}_h\))偏移,鼓励模型生成事实内容;(2) 负向引导——将隐藏状态沿幻觉方向 \(+\mathbf{v}_h\) 偏移,故意"诱导"幻觉。这两个干预版本分别生成正向预测分布 \(P^+\) 和负向预测分布 \(P^-\)
- 设计动机:双向干预比单方向引导更有效——正向引导提供了"应该去哪"的信号,负向引导提供了"不应该去哪"的信号,二者结合可以更精确地修正模型行为
-
对比解码机制:
- 功能:综合正向和负向干预的预测结果,生成高质量输出
- 核心思路:最终输出的 token 概率通过计算正向预测 \(P^+\) 和负向预测 \(P^-\) 的对比差异来决定。具体来说,增强正向引导下概率高但负向引导下概率低的 token(这些 token 是"有信心的事实"),同时抑制在两个方向上都概率高的 token(这些是无论引导方向如何都会生成的基本词汇,不需要特殊处理)以及在负向引导下概率高但正向引导下概率低的 token(这些是幻觉候选)。对比解码公式类似 \(\log P_{final} = (1+\alpha) \log P^+ - \alpha \log P^-\),其中 \(\alpha\) 控制对比强度
- 设计动机:单纯的正向引导可能引入新的偏差("过度纠正"),对比解码通过同时参考正负两个方向的信号,实现了更细粒度和鲁棒的幻觉抑制
训练策略¶
ASD 完全不需要训练——校准阶段仅需少量样本的一次前向传播以提取方向向量,推理阶段的干预是即时进行的。不修改模型参数,不需要梯度计算。校准集通常只需几十到几百个样本。整个方法可以直接应用到任何已部署的 LVLM 上。
实验关键数据¶
主实验(幻觉基准测试)¶
| 方法 | CHAIR↓ | POPE Acc | MME-H | 训练需求 |
|---|---|---|---|---|
| LLaVA-1.5 基线 | 较高 | 中等 | 中等 | - |
| VCD (对比解码) | 中等 | 中等偏高 | 中等偏高 | 无训练 |
| OPERA | 中等 | 中等偏高 | 中等偏高 | 无训练 |
| DoLa | 中等 | 较高 | 中等 | 无训练 |
| ASD (本文) | 最低 | 最高 | 最高 | 无训练 |
消融实验¶
| 配置 | 幻觉抑制效果 | 通用性能 | 说明 |
|---|---|---|---|
| ASD 完整方法 | 最佳 | 保持/提升 | 双向引导 + 对比解码 |
| 仅正向引导 | 良好 | 轻微下降 | 缺少负向信号 |
| 仅负向引导 | 中等 | 保持 | 知道避免什么但不知道追求什么 |
| 无对比(直接用正向输出) | 中等偏好 | 可能过度纠正 | 缺少对比调节 |
| 不同校准集大小 | 随大小增加提升 | 不变 | 50-100 样本即趋于饱和 |
| 不同干预层 | 中间层最优 | - | 浅层干预无效,深层干预太晚 |
关键发现¶
- ASD 在多个幻觉基准上显著降低了幻觉率,同时在通用视觉理解基准上的性能不受影响甚至有小幅提升
- 双向干预比单方向引导一致更优——正向和负向信号的互补性是方法成功的关键
- 校准集的大小影响不大,说明幻觉的方向模式在不同样本间高度一致,是模型层面的系统性偏差
- 中间层是最有效的干预点——过浅的层还没形成语义级别的幻觉模式,过深的层已经太接近输出决策难以修正
- 方法的推理开销极小,仅增加了约 2 倍前向传播成本(原始 + 正向引导 + 负向引导),且不需要额外的模型副本
亮点与洞察¶
- 激活空间中幻觉可识别:幻觉不是随机的——它在激活空间中有一致的方向模式。这一发现为理解 LVLM 幻觉的内在机制提供了新的视角,也暗示了可以通过更深入的激活分析来"诊断"模型的可靠性
- 双向引导的互补性:正向引导 + 负向引导类似于"胡萝卜+大棒"策略,比单独使用任何一种都更有效。这种双向干预的思路可以迁移到其他需要控制生成方向的场景(如毒性控制、风格迁移等)
- 训练免费的即插即用:不修改模型参数、不需要额外训练,直接适用于已部署模型。对于生产环境中已有的 LVLM,可以零成本添加幻觉抑制能力
- 与 LLM Safety 领域的 Representation Engineering 思路相通:激活引导在 LLM 安全性领域已被用于控制诚实度、毒性等,本文将其扩展到多模态幻觉控制,建立了两个领域的技术桥梁
局限与展望¶
- 校准集的构建依赖预先标注的事实/幻觉样本对,这些标注本身可能存在偏差或不完整
- 当前方法假设幻觉在激活空间中有单一的线性方向,但实际上不同类型的幻觉(对象幻觉、属性幻觉、关系幻觉)可能对应不同的方向
- 推理时增加了约 2 倍计算成本(两次额外的前向传播),虽然不需要训练,但在延迟敏感的应用中可能是瓶颈
- 可以探索多向量引导(针对不同类型幻觉使用不同方向向量)以实现更精细的幻觉控制
- 与训练时方法(如 DPO)结合可能产生更强的幻觉抑制效果
- 方向向量的可解释性分析(它们对应的语义含义)值得深入研究
相关工作与启发¶
- vs VCD (Visual Contrastive Decoding): VCD 通过在输入端扰动图像(如添加噪声)来构造对比,本文则在激活空间内部构造对比。VCD 的扰动可能改变模型的整体行为,而 ASD 的激活引导更加精准
- vs OPERA: OPERA 通过分析注意力模式来检测过度关注 summary token 的幻觉生成,是一种基于注意力的方法。ASD 从隐藏状态而非注意力权重入手,捕捉了不同维度的幻觉信号
- vs DoLa (Decoding by Contrasting Layers): DoLa 对比不同层的 logit 分布来抑制幻觉预测。ASD 同样利用层间信息,但通过方向向量引导而非直接对比 logit,控制更为灵活
- vs Representation Engineering (Zou et al.): RepE 在 LLM 安全领域使用激活引导控制诚实度等属性。ASD 将类似思路首次系统化地应用于多模态幻觉控制
评分¶
- 新颖性: ⭐⭐⭐⭐ 双向激活引导 + 对比解码的组合在 LVLM 幻觉缓解领域是新颖的,激活空间分析提供了新视角
- 实验充分度: ⭐⭐⭐⭐ 多个幻觉基准和通用基准上的评估全面,消融实验详实
- 写作质量: ⭐⭐⭐⭐ 从观察到方法到实验的逻辑链清晰紧凑
- 价值: ⭐⭐⭐⭐⭐ 训练免费的即插即用特性使其具有极高的实际应用价值,22 次引用说明学术界的认可度
相关论文¶
- [ICLR 2026] Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models
- [CVPR 2025] Octopus: Alleviating Hallucination via Dynamic Contrastive Decoding
- [ACL 2025] Mixture of Decoding: An Attention-Inspired Adaptive Decoding Strategy to Mitigate Hallucination in Multimodal LLMs
- [ACL 2025] Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence
- [ACL 2025] Jailbreak Large Vision-Language Models Through Multi-Modal Linkage