Activation Steering Decoding: Mitigating Hallucination in Large Vision-Language Models through Bidirectional Hidden State Intervention¶

会议: ACL 2025
arXiv: 无
代码: 无
领域: 多模态VLM
关键词: 幻觉缓解, 激活引导, 对比解码, 无训练推理干预, 视觉-语言模型

一句话总结¶

本文提出 ASD（Activation Steering Decoding），一种无需训练的推理时幻觉缓解方法，通过在 LVLM 的中间隐藏状态中识别幻觉方向模式，利用双向引导和对比解码来抑制幻觉输出，同时保持模型在通用视觉理解任务上的性能。

研究背景与动机¶

领域现状：大视觉-语言模型（LVLM）在多模态理解方面展现了强大能力，但它们经常产生"幻觉"（hallucination）——生成与输入图像不一致的内容。这一问题严重阻碍了 LVLM 在对事实准确性要求较高的应用场景（如医疗影像分析、自动驾驶描述、视觉事实检查等）中的部署。

现有痛点：现有的幻觉缓解方法主要分为两类：(1) 训练时方法——需要额外的高质量数据和大量计算资源进行模型微调（如 RLHF、DPO），成本高且修改了模型权重；(2) 推理时对比解码方法——如 VCD（Visual Contrastive Decoding），通过对比扰动版本和原始版本的输出分布来抑制幻觉，但这些方法通常只从输出空间（logits层面）进行干预，没有深入利用模型内部的激活信息。

核心矛盾：幻觉不仅仅是输出层面的问题——它根植于模型在推理过程中内部激活状态的偏差。如果只在输出阶段进行修正，相当于"治标不治本"，难以从根本上消除幻觉的产生源头。而直接干预内部激活又面临难题：如何准确定位幻觉在激活空间中的表征模式？

本文目标：(1) 研究幻觉内容在 LVLM 中间层激活空间中的表征特征；(2) 设计一种能在激活空间中直接抑制幻觉模式的无训练干预方法；(3) 确保干预不影响模型的通用视觉理解能力。

切入角度：作者通过分析 LVLM 在生成过程中的中间隐藏状态，发现幻觉内容和事实内容在激活空间中呈现出可识别的、方向性的差异模式。这意味着可以通过在特定方向上"引导"（steering）激活状态来抑制幻觉产生。这一发现与最近在 LLM 安全性领域成功应用的激活引导（activation steering）技术思路一脉相承。

核心 idea：先用一个小校准集识别激活空间中幻觉的方向模式，然后在推理时通过双向隐藏状态干预同时进行正向引导（朝向事实）和负向抑制（远离幻觉），配合对比解码机制最终生成更可靠的输出。

方法详解¶

整体框架¶

ASD 的工作流程分为两个阶段：离线阶段，使用一个小型校准数据集（包含已知事实和幻觉的样本对），提取并分析模型在生成事实内容和幻觉内容时的中间层激活差异，学习到幻觉的方向向量（steering vector）；在线推理阶段，对于每个输入图像和问题，在模型前向传播过程中对选定层的隐藏状态进行双向干预——正向引导朝向事实方向、负向抑制远离幻觉方向，然后对比干预后和原始的输出分布来生成最终 token。

关键设计¶

幻觉方向模式识别（校准阶段）:
- 功能：从小型校准集中提取激活空间中的幻觉方向向量
- 核心思路：准备一组校准样本，每个样本包含同一图像-问题输入下的事实正确回答和幻觉错误回答。将这些样本对分别输入模型，在选定的中间层提取隐藏状态。通过计算事实回答和幻觉回答隐藏状态的差异方向（例如使用 PCA 或均值差），得到一个幻觉方向向量 \(\mathbf{v}_h\)，该向量指示激活空间中"从事实到幻觉"的位移方向。校准集不需要很大——因为幻觉的方向模式在不同样本间具有一致性
- 设计动机：与其试图理解每种幻觉的具体机制，不如从统计角度概括幻觉的共性特征。少量校准数据就能捕捉到这种共性，使得方法极其轻量
双向隐藏状态干预（推理时引导）:
- 功能：在推理过程中对模型中间层激活进行定向修改以抑制幻觉
- 核心思路：在模型前向传播的选定层，对隐藏状态进行两个方向的同时干预：(1) 正向引导——将隐藏状态沿幻觉方向的反方向（即事实方向 \(-\mathbf{v}_h\)）偏移，鼓励模型生成事实内容；(2) 负向引导——将隐藏状态沿幻觉方向 \(+\mathbf{v}_h\) 偏移，故意"诱导"幻觉。这两个干预版本分别生成正向预测分布 \(P^+\) 和负向预测分布 \(P^-\)
- 设计动机：双向干预比单方向引导更有效——正向引导提供了"应该去哪"的信号，负向引导提供了"不应该去哪"的信号，二者结合可以更精确地修正模型行为
对比解码机制:
- 功能：综合正向和负向干预的预测结果，生成高质量输出
- 核心思路：最终输出的 token 概率通过计算正向预测 \(P^+\) 和负向预测 \(P^-\) 的对比差异来决定。具体来说，增强正向引导下概率高但负向引导下概率低的 token（这些 token 是"有信心的事实"），同时抑制在两个方向上都概率高的 token（这些是无论引导方向如何都会生成的基本词汇，不需要特殊处理）以及在负向引导下概率高但正向引导下概率低的 token（这些是幻觉候选）。对比解码公式类似 \(\log P_{final} = (1+\alpha) \log P^+ - \alpha \log P^-\)，其中 \(\alpha\) 控制对比强度
- 设计动机：单纯的正向引导可能引入新的偏差（"过度纠正"），对比解码通过同时参考正负两个方向的信号，实现了更细粒度和鲁棒的幻觉抑制

训练策略¶

ASD 完全不需要训练——校准阶段仅需少量样本的一次前向传播以提取方向向量，推理阶段的干预是即时进行的。不修改模型参数，不需要梯度计算。校准集通常只需几十到几百个样本。整个方法可以直接应用到任何已部署的 LVLM 上。

实验关键数据¶

主实验（幻觉基准测试）¶

方法	CHAIR↓	POPE Acc	MME-H	训练需求
LLaVA-1.5 基线	较高	中等	中等	-
VCD (对比解码)	中等	中等偏高	中等偏高	无训练
OPERA	中等	中等偏高	中等偏高	无训练
DoLa	中等	较高	中等	无训练
ASD (本文)	最低	最高	最高	无训练

消融实验¶

配置	幻觉抑制效果	通用性能	说明
ASD 完整方法	最佳	保持/提升	双向引导 + 对比解码
仅正向引导	良好	轻微下降	缺少负向信号
仅负向引导	中等	保持	知道避免什么但不知道追求什么
无对比（直接用正向输出）	中等偏好	可能过度纠正	缺少对比调节
不同校准集大小	随大小增加提升	不变	50-100 样本即趋于饱和
不同干预层	中间层最优	-	浅层干预无效，深层干预太晚

关键发现¶

ASD 在多个幻觉基准上显著降低了幻觉率，同时在通用视觉理解基准上的性能不受影响甚至有小幅提升
双向干预比单方向引导一致更优——正向和负向信号的互补性是方法成功的关键
校准集的大小影响不大，说明幻觉的方向模式在不同样本间高度一致，是模型层面的系统性偏差
中间层是最有效的干预点——过浅的层还没形成语义级别的幻觉模式，过深的层已经太接近输出决策难以修正
方法的推理开销极小，仅增加了约 2 倍前向传播成本（原始 + 正向引导 + 负向引导），且不需要额外的模型副本

亮点与洞察¶

激活空间中幻觉可识别：幻觉不是随机的——它在激活空间中有一致的方向模式。这一发现为理解 LVLM 幻觉的内在机制提供了新的视角，也暗示了可以通过更深入的激活分析来"诊断"模型的可靠性
双向引导的互补性：正向引导 + 负向引导类似于"胡萝卜+大棒"策略，比单独使用任何一种都更有效。这种双向干预的思路可以迁移到其他需要控制生成方向的场景（如毒性控制、风格迁移等）
训练免费的即插即用：不修改模型参数、不需要额外训练，直接适用于已部署模型。对于生产环境中已有的 LVLM，可以零成本添加幻觉抑制能力
与 LLM Safety 领域的 Representation Engineering 思路相通：激活引导在 LLM 安全性领域已被用于控制诚实度、毒性等，本文将其扩展到多模态幻觉控制，建立了两个领域的技术桥梁

局限与展望¶

校准集的构建依赖预先标注的事实/幻觉样本对，这些标注本身可能存在偏差或不完整
当前方法假设幻觉在激活空间中有单一的线性方向，但实际上不同类型的幻觉（对象幻觉、属性幻觉、关系幻觉）可能对应不同的方向
推理时增加了约 2 倍计算成本（两次额外的前向传播），虽然不需要训练，但在延迟敏感的应用中可能是瓶颈
可以探索多向量引导（针对不同类型幻觉使用不同方向向量）以实现更精细的幻觉控制
与训练时方法（如 DPO）结合可能产生更强的幻觉抑制效果
方向向量的可解释性分析（它们对应的语义含义）值得深入研究

评分¶

新颖性: ⭐⭐⭐⭐ 双向激活引导 + 对比解码的组合在 LVLM 幻觉缓解领域是新颖的，激活空间分析提供了新视角
实验充分度: ⭐⭐⭐⭐ 多个幻觉基准和通用基准上的评估全面，消融实验详实
写作质量: ⭐⭐⭐⭐ 从观察到方法到实验的逻辑链清晰紧凑
价值: ⭐⭐⭐⭐⭐ 训练免费的即插即用特性使其具有极高的实际应用价值，22 次引用说明学术界的认可度