Hallucination Begins Where Saliency Drops¶

会议: ICLR 2026
arXiv: 2601.20279
代码: https://github.com/zhangbaijin/LVLMs-Saliency
领域: 多模态视觉语言模型
关键词: 幻觉缓解, 大视觉语言模型, 显著性分析, 注意力机制, 推理时干预

一句话总结¶

提出 LVLMs-Saliency 梯度感知诊断框架来量化每个输出 token 的视觉锚定强度，发现"当先前输出 token 对下一个 token 预测的显著性降低时，幻觉就会产生"的关键规律，并基于此设计了 SGRS（显著性引导的拒绝采样）+ LocoRE（局部一致性增强）双机制推理时框架，在多个 LVLM 上显著降低幻觉率。

研究背景与动机¶

大型视觉语言模型（LVLM）如 LLaVA、Qwen2-VL、InternVL 等在跨模态任务上取得了显著进展，但幻觉问题始终是核心挑战——模型可能生成图像中不存在的物体或属性。

现有缓解策略主要分为两类：需要重新训练的方法（如额外数据微调）和免训练方法（如 OPERA、VCD、DOPRA 等）。后者主要关注注意力汇聚（attention sink）现象——某些 token 在后续生成中持续吸引高注意力权重，可能导致幻觉。然而，这些方法存在关键不足：注意力图只反映前向传播中的决策，无法捕捉输入 token 对最终输出的影响链路。实验表明，仅看注意力图几乎无法区分正确 token 和幻觉 token 的生成模式（图 1）。

本文的核心洞察是：将注意力权重 $\mathbf{A}$ 与其梯度 $\nabla \mathbf{A}$ 的逐元素乘积定义为显著性（Saliency），就能清晰地观察到一个决定性规律——幻觉发生在先前输出 token 的显著性下降之时。这意味着模型"遗忘"了近期上下文，上下文记忆崩溃导致了语义不连贯的输出。

方法详解¶

整体框架¶

整体方案包含三个层次：（1）LVLMs-Saliency 诊断框架——量化每个 token 的幻觉风险；（2）SGRS——在 token 提交到序列前主动过滤低显著性候选；（3）LocoRE——在 token 被接受后增强对近期上下文的注意力。SGRS 和 LocoRE 形成闭环：SGRS 是"门卫"，阻止低质量 token 进入；LocoRE 是"稳定器"，防止已接受的 token 被遗忘。

关键设计¶

LVLMs-Saliency 诊断框架: 对于模型 $\mathcal{M}$ 在每一层 $l$、每个注意力头 $h$ 的注意力矩阵 $\mathbf{A}^{(l,h)}$，计算显著性矩阵：

$$\mathbf{S}^{(l,h)} = \text{tril}(|\mathbf{A}^{(l,h)} \odot \nabla \mathbf{A}^{(l,h)}|)$$

层级归一化显著性通过对所有头取平均再做 $\ell_2$ 归一化得到：$\bar{\mathbf{S}}^{(l)} = \frac{\sum_h \mathbf{S}^{(l,h)}}{\|\sum_h \mathbf{S}^{(l,h)}\|_2}$。核心发现是：正确 token 的显著性图呈现对近期 token 的强依赖（随距离衰减），而幻觉 token 的显著性全面崩溃。跨 500 样本的统计分析以及跨三个模型（LLaVA-1.5、Qwen2-VL、InternVL）的验证都支持这一规律。

Saliency-Guided Rejection Sampling (SGRS): 在解码位置 $P$，模型产生 logits 后，先通过 top-$K$ 采样得到候选集 $\mathcal{C}^{(P)}$。对每个候选 $c_i$，计算其幻觉显著性：

$$\mathcal{S}(c_i) = \frac{1}{|\mathcal{L}_{\text{target}}| \cdot |\mathcal{J}|} \sum_{l \in \mathcal{L}_{\text{target}}} \sum_{j \in \mathcal{J}} \bar{\mathbf{S}}_{P,j}^{(l)}$$

候选被接受仅当 $\mathcal{S}(c_i) \geq \tau^{(P)}$，其中自适应阈值基于最近 $W$ 个输出 token 的历史平均显著性计算：$\tau^{(P)} = \alpha \cdot \frac{1}{|\mathcal{H}|}\sum_{j \in \mathcal{H}} \mathcal{S}(x_j)$，$\alpha \in (0,1)$ 控制灵敏度。最多重采样 $R$ 次，若所有候选都被拒绝则选显著性最高者。

Local Coherence Reinforcement (LocoRE): 轻量级即插即用模块，在每个解码步对注意力权重进行修改。对位置 $P+1$ 的预测，增强其对最近 $w_s$ 个输出 token 的注意力：

$$\gamma_j^{(P)} = 1 + \beta \cdot \mathbb{I}((P - j) \leq w_s)$$

其中 $\beta \geq 0$ 是增强强度。这直接放大近期上下文对当前预测的影响，对抗显著性衰减导致的"遗忘"行为。LocoRE 纯粹在注意力结构上操作——无需梯度计算或模型参数修改，延迟增加 < 2%。

损失函数 / 训练策略¶

本方法是纯推理时干预，无需任何训练或微调。SGRS 需要一次额外的反向传播来计算梯度显著性（增加 30-40% 延迟），而 LocoRE 仅需修改注意力权重（几乎无额外延迟）。在实践中，仅使用 LocoRE 就能获得大部分收益且几乎无速度损失。

实验关键数据¶

主实验¶

在 LLaVA-1.5-7B 作为基线模型的 POPE、CHAIR、MME 上的比较：

方法	POPE F1	POPE Acc	CHAIR S↓	CHAIR I↓	MME Total
Beam Search (基线)	85.4	84.0	51.0	15.2	565.34
OPERA (CVPR 2024)	84.2	85.2	47.0	14.6	549.00
EAH (EMNLP 2025)	85.7	86.0	36.4	9.9	603.99
CausalLLM (ICLR 2025)	86.0	86.5	-	-	656.00
MemVR (ICML 2025)	87.1	87.4	46.6	13.0	648.30
LocoRE (本文)	86.9	87.3	38.4	11.2	656.66
SGRS + LocoRE (本文)	87.0	87.5	35.6	8.2	668.33

跨模型的综合结果（SGRS + LocoRE 相对基线提升）：

模型	LLaVAW	MM-Vet	VizWiz	CHAIR S↓	POPE Acc
LLaVA-1.5-7B	+4.2	+5.5	+6.4	+12.4	+3.5
LLaVA-1.5-13B	+4.3	+5.9	+3.5	+7.4	+0.4
Qwen2-VL-7B	+4.1	+4.5	+3.0	+5.7	+1.4
InternVL-7B	+3.9	+5.0	+4.5	+12.2	+1.5

消融实验¶

$\alpha$（SGRS）和 $\beta$（LocoRE）的超参数消融（LLaVA-1.5-7B）：

$\alpha$	$\beta$	CHAIR S↓	POPE F1	说明
0.0	0.0	48.0	85.4	基线
0.0	0.15	38.4	86.9	仅 LocoRE
0.6	0.0	36.5	86.9	仅 SGRS
0.6	0.15	35.6	87.0	完整方法
0.6	1.0	50.2	60.3	过度增强导致退化

关键发现¶

核心规律得到跨模型验证: 在 LLaVA-1.5、Qwen2-VL、InternVL 三种架构上，幻觉 token 的显著性一致低于正确 token，最低显著性区间的幻觉率达 68%-76%，最高区间降至 18%-28%
因果验证实验: 人为降低正确 token 的显著性（衰减因子从 1.0 到 0.2），CHAIR 幻觉率从 35.6 升至 56.0，直接证明了因果关系
LocoRE 单独使用时性价比最高: 仅增加 < 2% 延迟即可获得大部分改善，是实际部署的最佳选择
SGRS 的 $\alpha = 0.6$ 是最佳折中: 抑制 28.3%+ 的幻觉，同时保持推理速度和输出质量；$\alpha = 0.9$ 虽进一步降低幻觉但延迟增加 33%

亮点与洞察¶

从"注意力 → 显著性"的范式转变: 仅看注意力图无法区分正确和幻觉 token，但梯度加权后的显著性能清晰区分——这是对 LVLM 幻觉理解的重要推进
发现了简洁而有力的规律: "幻觉始于显著性下降"——当模型遗忘近期输出上下文时，就会产生不连贯的内容。这一规律在直觉上也非常合理
双机制的闭环设计精巧: SGRS（守门）+ LocoRE（稳固）的协同设计优雅且各有分工
LocoRE 的实用性极高: 无需训练、无需额外模型、无需梯度计算、即插即用、几乎无延迟——非常适合工业落地
可视化分析非常有说服力: 正确 token vs 幻觉 token 的显著性对比图直观清晰

局限与展望¶

SGRS 的延迟开销: 每个 token 需要额外的反向传播（30-40% 开销），不适合实时应用。论文也承认仅 LocoRE 是更实际的选择
Failure Case: 对于"高置信度的幻觉"（模型非常确定地输出了错误内容），显著性可能仍然很高，SGRS 无法检测。这与 OpenAI 发现的"模型会自信地犯错"一致
上下文无关生成: 当模型生成的内容本身就偏离当前上下文时（如模型幻觉出一个全新的话题），SGRS 可能不够有效
仅关注文字输出显著性: 完全忽略了视觉显著性的作用——但论文分析 500 样本后认为 prompt 显著性不是幻觉的主要原因
超参数需要针对不同模型调整: LLaVA-1.5 用 $\beta = 0.15$，Qwen2-VL 用 $\beta = 0.20$，需要手动搜索

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐