跳转至

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

会议: CVPR 2026
arXiv: 2510.10285
代码: 无
领域: 多模态VLM / 幻觉缓解 / 可解释性
关键词: 多模态幻觉, 注意力头重分配, 感知-推理分层, 训练无关, MLRM

一句话总结

将多模态推理模型幻觉分解为浅层的感知偏差和深层的推理漂移两种失效模式,通过识别感知/推理功能头并选择性放大其贡献,以即插即用、无需训练的方式平均提升4.2%准确率,仅增加约1%计算开销。

背景与动机

多模态大推理模型(MLRM)如Kimi-VL、Ocean-R1的幻觉问题不仅来自视觉证据不足,更来自模型内部感知与推理的功能失配。可解释性研究发现Transformer存在分阶段注意力:浅层关注视觉token做感知,深层转向文本token做推理。但这种功能划分常常不够强——浅层视觉注意力过于分散导致关键证据被稀释(感知偏差),深层注意力未能保持中间推理步骤的一致性导致结论偏离前提(推理漂移)。人工检查200个幻觉案例:感知偏差占16%,推理漂移占20%,二者共现占10%。

核心问题

能否在不重训练、不修改架构的前提下,通过识别并增强模型中已有的感知/推理功能头来同时缓解两种幻觉模式?

方法详解

整体框架

两步即插即用插件:(1) 功能头识别:计算每个注意力头的视觉注意力比率,结合层深度边界将头分为感知头(浅层+高视觉注意比)和推理头(深层+低视觉注意比);(2) 类别条件缩放:对识别出的功能头施加乘法增益\(g_{perc}/g_{reas}\)放大其输出,其余头保持不变。

关键设计

  1. 层-模态注意力分析:对每个头\(h\)在层\(\ell\)计算视觉注意力比率\(S_v^{(\ell)}(h) = \sum_{j \in T_v} a_{i^*j}^{(h,\ell)}\)。设定深度边界\(\ell_{perc}\)\(\ell_{reas}\)以及比率阈值\(\tau_{perc}\)\(\tau_{reas}\)将头分类:\(\mathcal{H}_{perc}^{(\ell)} = \{h: \ell \leq \ell_{perc} \wedge S_v \geq \tau_{perc}\}\)\(\mathcal{H}_{reas}^{(\ell)} = \{h: \ell \geq \ell_{reas} \wedge S_v \leq \tau_{reas}\}\)。典型设置:\(\ell_{perc}=7, \ell_{reas}=3\)(允许重叠),约6.4%的头被选中。

  2. 选择性增强策略:通过理论分析(最小编辑原则)证明仅增强(Strategy A)优于增强+衰减(Strategy C/D)——因为非目标头大多不是有害的,衰减它们会造成附带损伤。增益因子\(g_{perc}=1.16, g_{reas}=1.30\)(适度放大),应用于head输出投影前。核心公式:\(g^{(h,\ell)} = g_{perc} \cdot \mathbb{1}[h \in \mathcal{H}_{perc}] + g_{reas} \cdot \mathbb{1}[h \in \mathcal{H}_{reas}] + 1 \cdot \mathbb{1}[\text{otherwise}]\)

  3. 任务依赖的边界带:最优\(\ell_{perc}\)\(\ell_{reas}\)不是单点而是一个区间带——视觉任务偏好浅边界,数学推理偏好深边界。在\(\ell \in [10,17]\)的过渡区存在性能低谷,说明感知和推理功能在此处交织而非清晰分离。

损失函数 / 训练策略

完全training-free。仅在推理时修改注意力头输出的缩放,不改变任何权重。额外计算仅为\(O(H \cdot N^2)\)的视觉注意力比率计算,渐进时间复杂度不变(仍为\(O(N^2)\)),实测额外延迟<5%。

实验关键数据

模型 方法 MathVista MathVision HallusBench MMStar SEED Avg Gain
Kimi-VL Vanilla 63.48 56.24 64.76 59.76 66.26
Kimi-VL +VCD 63.51 56.14 65.68 59.48 66.52 +0.2%
Kimi-VL +Ours 69.20 58.54 67.41 66.47 69.55 +4.7%
Ocean-R1 Vanilla 71.90 22.42 60.03 59.40 65.46
Ocean-R1 +Ours 73.73 27.71 61.16 62.27 66.28 +3.5%

效率对比(HallusBench, Kimi-VL):VCD +62% latency, CGD +392%, AGLA +21%, Ours +5.1%

消融实验要点

  • 感知+推理联合增强必要:仅增强感知头在视觉任务提升大但数学推理提升小,仅增强推理头相反。R1-OneVision上单独增强反而降3.91%,联合增强+5.58%,证明幻觉是跨阶段交互导致
  • 增益因子\(g_{reas}=1.30\)最优:从1.10就开始有~10%提升,1.30达到峰值;\(g_{perc}\)波动更大,1.16最优
  • 边界扫描:>150种边界配置,最优和最劣差距27.4%,验证了边界选择的关键性
  • 头比例\(\tau_{reas}\)选择约6.4%头时最优,过多则稀释功能头信号
  • 不同模型需要不同配置:Kimi-VL的MMStar上仅增强感知头+6.71%,Ocean-R1上仅增强感知头-1.51%

亮点

  • "感知偏差+推理漂移"的幻觉双因素框架比单纯"视觉信息不足"的解释更全面和精确
  • 最小编辑原则的理论分析很优雅——证明了放大优于衰减(因为大多数头并非有害),避免附带损伤
  • 实测仅5%延迟增加,远优于VCD(62%)、CGD(392%)、AGLA(21%),是真正实用的即插即用方案
  • 在MLRM(长推理模型)上验证——这类模型的幻觉问题更为突出
  • 贡献图(Contribution Map)通过gate参数+梯度反传的分析方法可以作为通用的head归因工具

局限性 / 可改进方向

  • 边界\(\ell_{perc}, \ell_{reas}\)需要手动调参(尽管在一个较宽的区间内稳定)
  • 仅在Qwen系列架构上验证(Ocean-R1、Kimi-VL都是Qwen衍生),他类架构(LLaMA系列)待验证
  • 对所有样本使用相同增益,输入自适应的增益调整可能更优
  • 增益因子\(g\)在不同任务上的最优值不完全一致,跨任务鲁棒性尚有改进空间
  • 浅层和深层的划分过于简化——中间层既有感知又有推理功能,更细粒度的划分值得探索

与相关工作的对比

  • vs VCD (对比解码):VCD构造反事实视觉对比但不区分失效类型,在数学推理上收益有限。本文同时缓解感知和推理两种失效
  • vs AGLA (全局局部注意力融合):AGLA通过Grad-CAM生成局部增强视图,改善感知但推理侧不变。本文在深层直接增强推理头
  • vs CGD (CLIP引导解码):CGD用外部CLIP做句子级检查,引入巨大延迟(392%)。本文零外部模型,仅5%延迟
  • vs OPERA/DAMRO (注意力探测):这些工作诊断了注意力中的sink/halluciation模式,但本文首次将注意力头按功能分类并做选择性增强

启发与关联

  • idea线索:本文的"层深度→功能分工"发现与V2Drop的"token变化量→重要性"发现可以结合——用变化量区分功能头可能比固定阈值更鲁棒
  • ideas/llm_nlp/20260317_perturbation_probing_vlm_overshadow.md相关——该idea关注VLM中视觉被语言压制的问题,本文提供了一种具体的缓解方案
  • 可将此方法迁移到视频理解中——视频VLM的时序帧间幻觉可能也有类似的感知/推理分层失效

评分

  • 新颖性: ⭐⭐⭐⭐ 感知/推理双因素框架和选择性增强策略是新的,但head重要性分析不算全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 3个模型、5个基准、>150种边界配置、4种策略对比、效率分析、详细案例分析
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,从动机→分析→方法→实验的逻辑链完整
  • 价值: ⭐⭐⭐⭐⭐ 仅5%延迟的即插即用幻觉缓解在实际部署中非常有价值