Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance¶
会议: CVPR2026
arXiv: 2602.01047
代码: 无
领域: 多模态VLM
关键词: 幻觉缓解, 解码策略, 视觉语言模型, 残差引导, 训练免
一句话总结¶
提出 Residual Decoding (ResDec)——一种训练免的即插即用解码策略,通过分析历史 token 的 logit 分布中的 U 型 JSD 模式发现语义锚定阶段,聚合该阶段的历史 logits 作为残差引导融入当前解码,以近乎零的额外推理开销有效抑制 LVLM 中的语言先验幻觉。
研究背景与动机¶
大型视觉语言模型(LVLM)虽然在多模态任务上表现优异,但深受语言先验幻觉困扰——在逐步生成回复时,文本上下文逐渐淹没视觉上下文,导致模型产生语法连贯但与图像不符的内容。
现有缓解方法的不足:(1) 训练型方法(数据去偏、偏好对齐等)需要额外训练和标注,扩展性差;(2) 对比解码方法(VCD、ICD 等)需要 2× 或更多推理时间和 GPU 内存;(3) 模型内部干预方法(修改注意力/FFN/层级)效率低、泛化性差。
关键观察:作者发现正确答案的信号已经嵌入在前序 token 的 logit 分布中。例如回答"The answer is D"时,在生成"The"、"answer"、"is"这几个引导 token 时,正确答案"D"的 logits 已经处于较高值;但在生成":"时,幻觉 token "C"的 logits 异常升高,最终超过真实 token。幻觉的本质是幻觉 token 在某些时刻 logit 异常升高并逐步超越真实 token。
方法详解¶
整体框架¶
ResDec 是一个纯粹的解码阶段策略,无需修改模型架构或额外训练。给定当前解码步 \(t\),ResDec 分析历史窗口内 token 的 logit 演化,找到语义稳定区间,聚合该区间的 logits 形成残差引导信号,与当前 logits 加权融合后进行采样。
关键设计¶
-
U 型 JSD 模式与三阶段划分:通过计算历史窗口 \(\mathcal{W}\) 内相邻时间步的 Jensen-Shannon 散度,发现候选 token 分布的 JSD 呈现 U 型变化,据此划分为三个阶段:
- PSAP(语义前清晰阶段):U 型左侧,分布从"混乱"走向"收敛",存在锚定不确定性
- SAP(语义锚定阶段):U 型底部,JSD 接近 0,表示分布高度稳定,模型已牢固锚定核心语义
- EDP(表达发散阶段):U 型右侧,JSD 上升,模型追求多样表达形式,易受语言先验影响
ResDec 选取 SAP+EDP 区间(即 U 型底部及其右侧)的 logits 构建残差引导。
-
置信度加权历史聚合:在历史聚合窗口 \(\Delta_t\) 内,对每个时间步 \(i\) 计算局部置信度 \(C_i = -\frac{1}{|\Omega_t|} \sum_{j=1}^{|\Omega_t|} \log P_i(j)\)(低熵→高置信),然后以归一化置信权重聚合各步的 logits: \(\text{logit}_\theta^{\text{res}}(y_t | T_{<t-1}) = \sum_{i \in \Delta_t} \frac{C_i}{\sum_j C_j} \cdot \text{logit}_\theta(\hat{y}_i | T_{<i})\)
-
历史-当前融合与可行性约束:将历史残差与当前 logits 线性融合: \(p_{\text{ResDec}}(y_t) = \text{Softmax}[(1-\alpha)\text{logit}_\theta(y_t) + \alpha \cdot \text{logit}_\theta^{\text{res}}(y_t)]\) 其中 \(\alpha=0.5\)。同时引入截断约束 \(\mathcal{V}_{\text{head}}\)(\(\beta=0.1\)),仅保留概率不低于最大概率 \(\beta\) 倍的 token,将其余 token 的 logits 设为 \(-\infty\),防止残差引导引入不合理 token。
损失函数 / 训练策略¶
- 完全训练免,仅在解码阶段操作
- 复用推理过程中自然产生的历史 logits,无需额外前向传播
- 超参设置简单:\(\alpha=0.5\), \(\beta=0.1\),候选 token 池大小 \(|\Omega_t| \in [64, 512]\)
实验关键数据¶
主实验(POPE 平均结果)¶
| 模型 | 方法 | Accuracy ↑ | F1 ↑ |
|---|---|---|---|
| LLaVA-1.5 | Regular | 79.83 | 79.29 |
| LLaVA-1.5 | OPERA | 84.21 | 83.55 |
| LLaVA-1.5 | VISTA | 86.15 | 86.29 |
| LLaVA-1.5 | ResDec | 87.23 | 86.93 |
| Qwen2.5-VL | Regular | 86.11 | 84.74 |
| Qwen2.5-VL | VISTA | 88.83 | 88.99 |
| Qwen2.5-VL | ResDec | 90.16 | 89.56 |
HallusionBench & CHAIR¶
| 模型 | 方法 | fACC ↑ | CHAIR_S ↓ | CHAIR_I ↓ |
|---|---|---|---|---|
| LLaVA-1.5 | Regular | 17.9 | 55.0 | 16.3 |
| LLaVA-1.5 | MemVR | 17.9 | 46.6 | 13.0 |
| LLaVA-1.5 | ResDec | 18.2 | 42.7 | 12.6 |
| Qwen2.5-VL | Regular | 43.4 | 30.6 | 8.4 |
| Qwen2.5-VL | ResDec | 47.1 | 25.8 | 6.8 |
效率对比¶
| 方法 | 延迟(ms/token) | 吞吐量(token/s) | 内存(MB) |
|---|---|---|---|
| Greedy | 28.54 | 35.04 | 14257 |
| VCD | 62.79 | 15.93 | 14967 |
| OPERA | 104.46 | 9.57 | 21300 |
| ResDec | 29.11 | 34.35 | 14296 |
消融实验¶
| \(\alpha\) | \(\beta\) | MME | POPE Acc | MMStar |
|---|---|---|---|---|
| 0.25 | 0.1 | 2326 | 89.64 | 64.20 |
| 0.5 | 0.1 | 2348 | 90.16 | 65.40 |
| 0.75 | 0.1 | 1875 | 82.56 | 62.67 |
| 1.0 | 0.1 | 1583 | 72.50 | 61.80 |
关键发现¶
- ResDec 在三个 LVLM 上平均提升 7.84% Accuracy 和 8.01% F1(vs Regular)
- 延迟仅比 Greedy 多 0.02×,远优于 OPERA(3.7×)和 VCD(2.2×)
- \(\alpha\) 超过 0.5 后性能急剧下降——历史残差是辅助校正而非替代解码
- 候选池大小在 64-512 之间最优,过小无法捕捉 JSD 变化,过大会引入早期噪声
- 跨多种解码策略(Nucleus、Top-K、Temperature、Greedy)均有效
亮点与洞察¶
- 洞察深刻:发现幻觉的发生机制——幻觉 token 在解码过程中 logit 逐步升高超过真实 token——为理解和缓解幻觉提供了新视角
- U 型 JSD 模式:优雅地揭示了 LVLM 解码过程中"语义收敛→锚定→发散"的三阶段演化
- 极低开销:复用已有历史 logits,无需额外前向传播,延迟仅增加 2%,是目前效率最高的幻觉缓解方法
- 即插即用:不修改模型架构,不需要训练,兼容多种解码策略和 LVLM 架构
- 从 PMI/语言先验的贝叶斯视角提供了 ResDec 的理论支撑
局限与展望¶
- \(\alpha=0.5\) 是一个全局固定值,不同任务/模型可能需要不同的最优值,自适应 \(\alpha\) 调节是可改进方向
- U 型 JSD 模式在极短回复(如 Yes/No)场景下的适用性需要进一步分析
- 仅在 7B 规模模型上验证,更大规模模型上的效果未知
- 候选 token 池大小需要手动调整,自动化选择机制有待探索
相关工作与启发¶
- vs VCD(对比解码):VCD 需要额外一次无图像前向传播,延迟翻倍;ResDec 复用已有信息,几乎无额外开销
- vs OPERA(注意力惩罚):OPERA 延迟 3.7×,内存增加 7GB;ResDec 仅增 39MB,且效果更好
- vs DoLa(层对比):DoLa 修改模型内部结构,泛化性受限;ResDec 纯解码策略,更通用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ U 型 JSD 模式的发现和历史残差引导解码的设计极具原创性,从根本机制上理解幻觉
- 实验充分度: ⭐⭐⭐⭐⭐ 11 个 benchmark、3 个 LVLM、8+ 基线方法、多维消融和效率分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,insight 表达到位,U 型 JSD 图示直观
- 价值: ⭐⭐⭐⭐⭐ 实用价值极高——训练免、无额外开销、即插即用,有望成为 LVLM 解码的标准组件
亮点与洞察¶
局限与展望¶
相关工作与启发¶
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评
相关论文¶
- [ICLR 2026] KeepLoRA: Continual Learning with Residual Gradient Adaptation
- [ACL 2026] Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation
- [CVPR 2026] HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models
- [CVPR 2026] Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection
- [CVPR 2026] Tell Model Where to Look: Mitigating Hallucinations in MLLMs by Vision-Guided Attention