Intervene-All-Paths: Unified Mitigation of LVLM Hallucinations across Alignment Formats¶

会议: NeurIPS 2025
arXiv: 2511.17254
代码: https://github.com/SooLab/AllPath
领域: 多模态VLM / 幻觉缓解 / 注意力头干预
关键词: hallucination, attention head intervention, causal path, multi-path framework, training-free

一句话总结¶

提出 AllPath，一个基于 Transformer 因果架构的多路径幻觉干预框架，首次发现 LVLM 的幻觉不来自单一因果路径而是 image-to-input-text、image-to-output-text、text-to-text 三条路径的交互，并且模型会根据问答对齐格式自适应选择不同路径；通过为每条路径设计轻量级关键 head 识别方法并自适应干预，在 POPE、MCQ-POPE、CHAIR、MME 四个不同格式 benchmark 上一致降低幻觉。

研究背景与动机¶

领域现状：LVLM 幻觉缓解方法主要分两类——对比解码（VCD、ICD）通过校准输出分布来减少语言偏置，干预方法（PAI、AD-HH）通过直接操纵注意力权重/头来增强视觉定基或抑制文本主导行为。
现有痛点：每种方法通常只干预单一因果路径——PAI 只干预 image→output-text 路径，AD-HH 只干预 input-text→output-text 路径——导致它们各自只在部分 benchmark 上表现好（PAI 擅长 CHAIR 但 POPE 一般，VCD 反之）。
核心矛盾：幻觉不是来自单一路径，而是多路径交互的结果；更关键的是，LVLM 对不同问答格式（二选一/多选/开放描述）使用不同的因果路径，单路径干预无法覆盖所有场景。
切入角度：从 Transformer 因果架构出发，系统性地分析所有可能的信息传播路径，并为每种路径设计针对性的关键头识别和干预方法。
核心 idea：多路径框架 + 自适应路径选择干预，仅需单次前向传播即可完成所有 head 评分。

方法详解¶

整体框架¶

AllPath 分三步：(1) 用两种轻量方法识别 text-to-text (T2T) 和 image-to-text (I2T) 关键注意力头；(2) 分析这些头在不同路径和问答格式下的角色；(3) 根据问题类型自适应选择干预路径，对正面 head 放大、负面 head 抑制。

关键设计¶

Text-to-Text Head 识别（LPI Score）：
做什么：量化每个注意力头对幻觉 token / 非幻觉 token 的推动程度
核心思路：定义 Log Probability Increase (LPI) score \(\text{logProb}_{\uparrow}^{(l,n)}(\mathcal{B}_t) = \log\sum_{b\in\mathcal{B}_t}\mathbb{P}(b|h_t^{(l-1)}+H_t^{(l,n)}) - \log\sum_{b\in\mathcal{B}_t}\mathbb{P}(b|h_t^{(l-1)})\)，分别对幻觉集 \(\mathcal{B}_t^-\) 和非幻觉集 \(\mathcal{B}_t^+\) 计算平均 LPI，T2T Score = \(S_{\text{T2T}}^{(l,n),+} - S_{\text{T2T}}^{(l,n),-}\)，越小表示该 head 越倾向促进幻觉
设计动机：相比 zero-out 策略（需要对每个 head 做完整前向）和训练方法（需标注数据），LPI 只需一次前向即可获得所有 head 的分数
Image-to-Text Head 识别（I2T Score）：
做什么：识别哪些注意力头在视觉 token 上有语义对齐的注意力模式
核心思路：选取目标 token \(\mathcal{T}_{\text{I2T}}\)（首次出现的物体词），分为图中存在的 \(\mathcal{T}_{\text{I2T}}^+\) 和不存在的 \(\mathcal{T}_{\text{I2T}}^-\)。对 \(\mathcal{T}_{\text{I2T}}^+\)，计算 head 在对应区域 \(M_r\) 上的注意力总和；对 \(\mathcal{T}_{\text{I2T}}^-\)，计算在整个图像上的注意力总和。\(S_{\text{I2T}}^{(l,n)} = S_{\text{I2T}}^{(l,n),+} - S_{\text{I2T}}^{(l,n),-}\)
设计动机：好的 I2T head 应在物体存在时集中注意力于对应区域，物体不存在时注意力分散
关键发现 — T2T Head 与对齐格式的强相关：
同一对齐格式（如 Yes/No）的不同 benchmark 之间 T2T head 高度相关（\(\rho=0.82\)），但不同格式（Yes/No vs MCQ）之间相关性急剧下降（\(\rho=0.12\)）
这意味着 T2T head 主要负责指令遵循/格式对齐，而非视觉理解
关键发现 — Image-to-input-text 与 image-to-output-text 路径不同：
虽然两种 I2T head 都比平均 head 更关注视觉内容，但它们之间几乎不相关
这意味着只干预输出路径是不够的，输入路径的 head 也需要干预
自适应干预策略：
做什么：根据问题类型选择干预的路径组合，对选定 head 用不同缩放因子
核心思路：选择 top-\(\xi\) 和 bottom-\(\xi\) 的 T2T head（\(Z_{\text{T2T}}^+\), \(Z_{\text{T2T}}^-\)），top-\(\zeta\) 的 I2T head（\(Z_{\text{I2T}}^+\)）。修改 MHA 输出：\(\tilde{H}_{\leq t}^{(l)} = \sum_n \lambda^{(l,n)} H_{\leq t}^{(l,n)}\)，其中 \(\lambda^{(l,n)} = \gamma^+\) if \((l,n)\in Z^+\)，\(\gamma^-\) if \((l,n)\in Z^-\)，否则 1
默认设置：\(\gamma^+=2.0\), \(\gamma^-=0.0\)（直接关闭负面 head）

损失函数 / 训练策略¶

无需训练：整个方法是 training-free 的，仅在推理时做一次前向传播识别 head + 缩放干预
短回答任务：\(\xi=20, \zeta=10\)；开放式任务：\(\xi=40, \zeta=50\)

实验关键数据¶

主实验 — POPE & MCQ-POPE & CHAIR¶

方法	POPE-Random Acc	POPE-Advers. Acc	MCQ-POPE-Random Acc	CHAIR \(C_S\)↓	CHAIR \(C_I\)↓
Vanilla	85.1	80.9	72.8	52.2	14.6
VCD	86.3	81.4	78.2	58.2	16.1
PAI	86.4	82.5	78.0	28.8	7.9
AD-HH	85.0	80.9	78.5	33.2	7.5
AllPath	87.2	82.8	80.5	26.6	7.2

MME 幻觉子集¶

方法	Existence↑	Count↑	Position↑	Color↑	Total↑
Vanilla	180.0	113.9	116.7	129.4	540.0
VCD	177.8	122.8	122.2	141.7	564.4
PAI	185.0	122.8	114.4	144.4	566.7
AllPath	188.3	126.1	132.2	153.3	600.0

消融实验 — head 数量与缩放因子¶

\(\xi\) (T2T heads)	\(\zeta\) (I2T heads)	POPE-Rand Acc	POPE-Advers. Acc
0	10	86.2	81.6
20	0	86.4	82.5
20	10	87.2	82.8
30	10	88.3	82.9
20	15	88.2	83.0

关键发现¶

VCD 在 POPE 上好但 CHAIR 上差（\(C_S\) 从 52.2 恶化到 58.2），因为只干预文本路径；PAI 在 CHAIR 上好但 POPE/MCQ-POPE 改进有限——验证了单路径干预的局限性
AllPath 是唯一在所有 benchmark（三种不同对齐格式）上都一致提升的方法
完全去掉 output-text 到 image 的注意力后，POPE 仅下降约 2%（说明 text-to-text 路径对 Yes/No 格式重要），但 CHAIR 下降 10%（说明 image-to-text 路径对开放描述重要）
MME 直接复用 POPE 的 head 设置仍能一致提升，验证了方法的泛化性

亮点与洞察¶

单次前向即完成所有 head 评分的高效性设计是核心技术亮点，相比 zero-out 策略（每 head 一次前向）效率提升数量级
T2T head 与对齐格式强相关的发现具有理论价值——解释了为什么不同方法在不同 benchmark 上表现不一致，为未来干预方法设计提供了结构化指导
image-to-input-text 与 image-to-output-text 路径独立的发现打破了"只需关注输出"的直觉假设
方法的 plug-and-play 特性使其可直接应用于任何基于 Transformer 的 LVLM

局限性 / 可改进方向¶

主要在 LLaVA-v1.5-7B 上验证，虽附录有 Qwen-VL 和 Qwen2.5-VL 结果但不够充分
缩放因子 \(\gamma^+, \gamma^-\) 和 head 数 \(\xi, \zeta\) 对不同任务格式需要手动调整
T2T head 和 I2T head 的选择依赖于标注的幻觉/非幻觉 token，需要一个小的标注集
对于完全新的问答格式（如 chain-of-thought），是否需要重新识别 head 尚未探讨
多模态大模型中是否存在更深层级的路径交互（如二阶效应）值得进一步研究

评分¶

新颖性: ⭐⭐⭐⭐ 多路径框架概念清晰，T2T/I2T head 识别方法简洁优雅，"格式决定路径"的发现有价值
实验充分度: ⭐⭐⭐⭐⭐ 四个不同格式 benchmark + 相关性分析 + 消融 + 多模型验证，非常全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，分析->发现->方法->验证的叙事结构合理
价值: ⭐⭐⭐⭐ Training-free 且适用于多种幻觉场景，对理解 LVLM 内部机制有启发