跳转至

Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs

会议: AAAI 2026
arXiv: 2511.09018
代码: https://github.com/CikZ2023/OWL
领域: 多模态VLM
关键词: 对象幻觉, 因果推理, 注意力干预, 对比解码, 大视觉语言模型

一句话总结

提出 Owl 框架,通过结构因果模型将视觉/文本注意力建模为中介变量,引入 VTACR 指标量化跨模态注意力失衡,设计 VTACR 引导的自适应注意力调制 + 双路径对比解码策略,在 POPE 和 CHAIR 上实现 SOTA 的幻觉抑制效果。

背景与动机

LVLMs(LLaVA、MiniGPT-4、Shikra 等)在图像描述和 VQA 中表现优异,但仍深受对象幻觉困扰——生成图中不存在的物体。现有解决方案分为三类:(1) 人类偏好对齐(如 RLHF),成本高;(2) 后处理检测/修正(LURE、Woodpecker),不解决根因;(3) 解码优化(VCD、PAI、OPERA),但通常只操控单一模态的注意力。

核心观察:现有方法要么增强视觉注意力,要么抑制文本注意力,但都忽略了两者之间的交互失衡。作者发现: - 单独增强视觉注意力可降低幻觉(TCE 提升),但导致输出过短 - 单独增强文本注意力会加重幻觉,但生成更长文本 - 幻觉 token 普遍表现出低 VTACR(视觉注意力贡献比),即过度依赖文本先验

核心问题

如何在解码过程中动态平衡视觉与文本注意力的贡献,使模型既不因过度依赖文本先验而产生幻觉,又不因过度强调视觉信号而截断输出?

方法详解

整体框架

Owl(Bi-mOdal attention reWeighting for Layer-wise hallucination mitigation)包含三个核心组件: 1. 结构因果模型(SCM):将视觉/文本注意力建模为中介变量 2. VTACR 引导的自适应注意力调制:逐层、逐 token 动态调整注意力权重 3. 双路径对比解码(DCD):构建视觉偏好路径和文本偏好路径,通过对比抑制幻觉

关键设计

  1. VTACR 指标(Visual-to-Textual Attention Contribution Ratio):
  2. 视觉 token 注意力贡献:\(\nu^{(\ell)} = \frac{1}{N|\mathcal{V}|} \sum_{j \in \mathcal{V}} \sum_{i=1}^{N} \mathbf{A}_{i,j}^{(\ell)}\)
  3. 文本 token 注意力贡献:\(\tau^{(\ell)} = \frac{1}{N|\mathcal{T}|} \sum_{k \in \mathcal{T}} \sum_{i=1}^{N} \mathbf{A}_{i,k}^{(\ell)}\)
  4. 层级 VTACR:\(\text{VTACR}^{(\ell)} = \nu^{(\ell)} / \tau^{(\ell)}\)
  5. 量化每层中视觉 vs 文本 token 对当前生成 token 的注意力贡献比
  6. 幻觉 token 具有偏低的 VTACR,表明过度依赖文本模态

  7. 结构因果模型与中介变量干预:

  8. 因果图:\(X_V \to A_V \to Y_T\)\(X_T \to A_T \to Y_T\)
  9. 先验 \(P_V, P_T\) 不可直接干预,但通过中介变量 \(A_V, A_T\) 间接影响
  10. 软干预:\(do(A_V = A_V^*), do(A_T = A_T^*)\)
  11. TCE 指标评估干预效果:衡量注意力修改后幻觉行为的平均变化

  12. 自适应注意力调制:

  13. 从 MSCOCO 采样 2000 个幻觉样本,计算每层 VTACR 分布
  14. 定义基准分数 \(V_b^{(\ell)}\) 为分布的第 \(\tau\)(默认 80)百分位
  15. \(V^{(\ell)} < V_b^{(\ell)}\)(视觉 grounding 不足)时,增大调制系数
  16. \(\tilde{T}^{(\ell)} = \mathbb{I}(V^{(\ell)} < V_b^{(\ell)}) \cdot \min(T \cdot \frac{V^{(\ell)} - V_b^{(\ell)}}{V_b^{(\ell)}}, T)\)
  17. 动态调整 \(\tilde{\alpha}^{(\ell)} = \alpha + \tilde{T}^{(\ell)}\)\(\tilde{\beta}^{(\ell)} = \beta + \tilde{T}^{(\ell)}\)

  18. 双路径注意力干预 + 对比解码(DCD):

  19. 视觉偏好路径:增强视觉 token 注意力 + 削弱文本 token 注意力
    • \(\tilde{\mathbf{A}}_{i,j}^{(\ell)} = \mathbf{A}_{i,j}^{(\ell)} + \tilde{\alpha}^{(\ell)} \cdot |\mathbf{A}_{i,j}^{(\ell)}|, \quad j \in \mathcal{V}\)
    • \(\tilde{\mathbf{A}}_{i,k}^{(\ell)} = \mathbf{A}_{i,k}^{(\ell)} - \tilde{\beta}^{(\ell)} \cdot |\mathbf{A}_{i,k}^{(\ell)}|, \quad k \in \mathcal{T}\)
  20. 文本偏好路径:削弱视觉 + 增强文本(模拟幻觉场景)
  21. 对比解码\(P_{\text{DCD}}(Y|X_V, X_I) = \text{Softmax}[(1+\lambda) \cdot \log p_\theta(y|X_V^\uparrow, X_T^\downarrow) - \lambda \cdot \log p_\theta(y|X_V^\downarrow, X_T^\uparrow)]\)
  22. 通过对比拉大忠实 token 与幻觉 token 的概率差距

损失函数 / 训练策略

无需训练。Owl 是纯推理阶段的解码策略,不修改模型参数: - 超参数:\(\alpha, \beta\) 按模型调优(LLaVA-1.5: 0.4/0.5, MiniGPT-4: 0.2/0.3, Shikra: 0.5/0.3) - 对比强度 \(\lambda = 0.2\),调制系数 \(T = 0.2\),百分位阈值 \(\tau = 80\) - 实验在 MSCOCO val2014 的 500 张图上进行,4×3090 GPU

实验关键数据

CHAIR 基准(幻觉率,越低越好):

模型 方法 C_S C_I Len
LLaVA-1.5 PAI 31.8 10.3 85.2
LLaVA-1.5 Owl 26.2 8.1 98.4
MiniGPT-4 PAI 24.8 9.3 65.9
MiniGPT-4 Owl 21.2 6.2 73.6
Shikra PAI 37.6 12.9 94.7
Shikra Owl 29.3 9.7 108.2
  • 对比 PAI,LLaVA-1.5 上 \(C_S\) 降低 17.6%,\(C_I\) 降低 21.4%
  • MiniGPT-4 上 \(C_I\) 降低 36.7%(最大提升)
  • Shikra 上 \(C_S\) 降低 22.1%
  • 生成长度不减反增(未牺牲输出丰富度)

POPE 基准(准确率,越高越好):

模型 方法 Random Popular Adversarial
LLaVA-1.5 Owl 90.2 88.1 90.5
MiniGPT-4 Owl 82.2 78.4 79.0
Shikra Owl 85.2 82.3 83.4
  • 在 Adversarial 设置下尤其突出,Shikra 上三项均为最高

GPT-4V 评估:LLaVA-1.5 上 Correctness 从 5.58→6.70(+20.1%),Detailedness 从 5.30→5.90(+11.3%)

VQA 保持:VizWiz +7.6%(48.8→52.5),TextVQA +3.7%,VQAv2 仅降 2.3%

消融实验要点

  • α(视觉注意力系数):增大可降低幻觉,但过大会压缩有用内容(F1 下降),存在 trade-off
  • β(文本注意力系数):增大稳步降低幻觉,F1 几乎不受影响,说明限制文本注意力更安全
  • λ(对比解码强度):0.1–0.4 范围稳定有效,过高导致解码不稳定
  • 三者互补:α 控制视觉增强,β 控制文本抑制,λ 控制对比力度

亮点

  1. 因果视角新颖:首次将视觉/文本注意力同时建模为 SCM 中的中介变量,提供可解释的幻觉分析框架
  2. VTACR 指标:简洁有效地量化跨模态注意力失衡,可作为独立的幻觉检测信号
  3. Training-free:纯推理阶段方法,即插即用,无需重训模型
  4. 不损害生成质量:幻觉减少的同时生成长度不减反增(区别于 PAI 等方法倾向生成更短输出)
  5. 双路径设计优雅:通过构建"视觉偏好"和"文本偏好"两条路径的对比,直觉清晰且效果显著

局限性 / 可改进方向

  1. 超参数依赖模型:α, β 需要对每个 backbone 单独调优,泛化性有限
  2. 额外推理开销:DCD 需要两次前向传播(两条路径),推理速度约减半
  3. 仅验证在有限 backbone 上:LLaVA-1.5、MiniGPT-4、Shikra 均为较早期模型,未验证在更强 LVLMs(如 LLaVA-Next、InternVL2 等)上的效果
  4. VTACR 基准分布依赖采样数据:2000 幻觉样本从 MSCOCO 采集,对其他数据分布的适应性未讨论
  5. POPE Popular 设置:在 MiniGPT-4 和 LLaVA-1.5 上略逊于 PAI,对高频物体场景可能需要进一步调优

与相关工作的对比

方法 干预方式 模态 是否训练 核心区别
VCD 视觉对比解码 单模态(视觉) 扰动视觉输入构造负样本
PAI 困惑度感知注意力门控 单模态 固定scaling,不考虑层级差异
OPERA rollback + 注意力抑制 单模态(文本) 抑制重复,不处理跨模态失衡
CausalMM 因果图 + 反事实推理 双模态 在视觉编码器+LLM解码器干预,但放大幻觉信号
Owl VTACR引导双路径对比 双模态(显式解耦) 逐层逐token自适应,幻觉信号与忠实信号拉大差距

启发与关联

  1. VTACR 可扩展为通用幻觉检测器:这个指标本身可以作为 token 级幻觉概率的 proxy,用于 early stopping 或选择性后处理
  2. 双路径对比思路可推广:不限于视觉/文本,可扩展至多模态融合的其他维度(如时间/空间注意力)
  3. 与 token pruning/compression 的关联:VTACR 低的层/token 可能是冗余视觉 token 的标志,可与视觉 token 压缩方法结合
  4. 因果中介分析框架:不止适用于幻觉,可用于分析 VLM 中任何视觉-文本失衡问题(如 bias、faithfulness)

评分

维度 分数 (1-10) 说明
新颖性 7 因果中介变量视角新颖,但对比解码框架已有前例
技术深度 8 SCM 建模完整,VTACR 定义清晰,自适应机制设计精细
实验充分度 7 三个 backbone + 多基准,但模型偏旧,缺少最新 LVLM
实用价值 8 Training-free,即插即用,代码开源
写作质量 7 框架图清晰,公式较多但逻辑连贯
综合 7.5 扎实的幻觉抑制工作,因果建模+双路径对比解码有启发