Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs¶

会议: AAAI 2026
arXiv: 2511.09018
代码: https://github.com/CikZ2023/OWL
领域: 多模态VLM
关键词: 对象幻觉, 因果推理, 注意力干预, 对比解码, 大视觉语言模型

一句话总结¶

提出 Owl 框架，通过结构因果模型将视觉/文本注意力建模为中介变量，引入 VTACR 指标量化跨模态注意力失衡，设计 VTACR 引导的自适应注意力调制 + 双路径对比解码策略，在 POPE 和 CHAIR 上实现 SOTA 的幻觉抑制效果。

背景与动机¶

LVLMs（LLaVA、MiniGPT-4、Shikra 等）在图像描述和 VQA 中表现优异，但仍深受对象幻觉困扰——生成图中不存在的物体。现有解决方案分为三类：(1) 人类偏好对齐（如 RLHF），成本高；(2) 后处理检测/修正（LURE、Woodpecker），不解决根因；(3) 解码优化（VCD、PAI、OPERA），但通常只操控单一模态的注意力。

核心观察：现有方法要么增强视觉注意力，要么抑制文本注意力，但都忽略了两者之间的交互失衡。作者发现： - 单独增强视觉注意力可降低幻觉（TCE 提升），但导致输出过短 - 单独增强文本注意力会加重幻觉，但生成更长文本 - 幻觉 token 普遍表现出低 VTACR（视觉注意力贡献比），即过度依赖文本先验

核心问题¶

如何在解码过程中动态平衡视觉与文本注意力的贡献，使模型既不因过度依赖文本先验而产生幻觉，又不因过度强调视觉信号而截断输出？

方法详解¶

整体框架¶

Owl（Bi-mOdal attention reWeighting for Layer-wise hallucination mitigation）包含三个核心组件： 1. 结构因果模型（SCM）：将视觉/文本注意力建模为中介变量 2. VTACR 引导的自适应注意力调制：逐层、逐 token 动态调整注意力权重 3. 双路径对比解码（DCD）：构建视觉偏好路径和文本偏好路径，通过对比抑制幻觉

关键设计¶

VTACR 指标（Visual-to-Textual Attention Contribution Ratio）:
视觉 token 注意力贡献：\(\nu^{(\ell)} = \frac{1}{N|\mathcal{V}|} \sum_{j \in \mathcal{V}} \sum_{i=1}^{N} \mathbf{A}_{i,j}^{(\ell)}\)
文本 token 注意力贡献：\(\tau^{(\ell)} = \frac{1}{N|\mathcal{T}|} \sum_{k \in \mathcal{T}} \sum_{i=1}^{N} \mathbf{A}_{i,k}^{(\ell)}\)
层级 VTACR：\(\text{VTACR}^{(\ell)} = \nu^{(\ell)} / \tau^{(\ell)}\)
量化每层中视觉 vs 文本 token 对当前生成 token 的注意力贡献比
幻觉 token 具有偏低的 VTACR，表明过度依赖文本模态
结构因果模型与中介变量干预:
因果图：\(X_V \to A_V \to Y_T\)，\(X_T \to A_T \to Y_T\)
先验 \(P_V, P_T\) 不可直接干预，但通过中介变量 \(A_V, A_T\) 间接影响
软干预：\(do(A_V = A_V^*), do(A_T = A_T^*)\)
TCE 指标评估干预效果：衡量注意力修改后幻觉行为的平均变化
自适应注意力调制:
从 MSCOCO 采样 2000 个幻觉样本，计算每层 VTACR 分布
定义基准分数 \(V_b^{(\ell)}\) 为分布的第 \(\tau\)（默认 80）百分位
当 \(V^{(\ell)} < V_b^{(\ell)}\)（视觉 grounding 不足）时，增大调制系数
\(\tilde{T}^{(\ell)} = \mathbb{I}(V^{(\ell)} < V_b^{(\ell)}) \cdot \min(T \cdot \frac{V^{(\ell)} - V_b^{(\ell)}}{V_b^{(\ell)}}, T)\)
动态调整 \(\tilde{\alpha}^{(\ell)} = \alpha + \tilde{T}^{(\ell)}\)，\(\tilde{\beta}^{(\ell)} = \beta + \tilde{T}^{(\ell)}\)
双路径注意力干预 + 对比解码（DCD）:
视觉偏好路径：增强视觉 token 注意力 + 削弱文本 token 注意力
- \(\tilde{\mathbf{A}}_{i,j}^{(\ell)} = \mathbf{A}_{i,j}^{(\ell)} + \tilde{\alpha}^{(\ell)} \cdot |\mathbf{A}_{i,j}^{(\ell)}|, \quad j \in \mathcal{V}\)
- \(\tilde{\mathbf{A}}_{i,k}^{(\ell)} = \mathbf{A}_{i,k}^{(\ell)} - \tilde{\beta}^{(\ell)} \cdot |\mathbf{A}_{i,k}^{(\ell)}|, \quad k \in \mathcal{T}\)
文本偏好路径：削弱视觉 + 增强文本（模拟幻觉场景）
对比解码：\(P_{\text{DCD}}(Y|X_V, X_I) = \text{Softmax}[(1+\lambda) \cdot \log p_\theta(y|X_V^\uparrow, X_T^\downarrow) - \lambda \cdot \log p_\theta(y|X_V^\downarrow, X_T^\uparrow)]\)
通过对比拉大忠实 token 与幻觉 token 的概率差距

损失函数 / 训练策略¶

无需训练。Owl 是纯推理阶段的解码策略，不修改模型参数： - 超参数：\(\alpha, \beta\) 按模型调优（LLaVA-1.5: 0.4/0.5, MiniGPT-4: 0.2/0.3, Shikra: 0.5/0.3） - 对比强度 \(\lambda = 0.2\)，调制系数 \(T = 0.2\)，百分位阈值 \(\tau = 80\) - 实验在 MSCOCO val2014 的 500 张图上进行，4×3090 GPU

实验关键数据¶

CHAIR 基准（幻觉率，越低越好）：

模型	方法	C_S	C_I	Len
LLaVA-1.5	PAI	31.8	10.3	85.2
LLaVA-1.5	Owl	26.2	8.1	98.4
MiniGPT-4	PAI	24.8	9.3	65.9
MiniGPT-4	Owl	21.2	6.2	73.6
Shikra	PAI	37.6	12.9	94.7
Shikra	Owl	29.3	9.7	108.2

对比 PAI，LLaVA-1.5 上 \(C_S\) 降低 17.6%，\(C_I\) 降低 21.4%
MiniGPT-4 上 \(C_I\) 降低 36.7%（最大提升）
Shikra 上 \(C_S\) 降低 22.1%
生成长度不减反增（未牺牲输出丰富度）

POPE 基准（准确率，越高越好）：

模型	方法	Random	Popular	Adversarial
LLaVA-1.5	Owl	90.2	88.1	90.5
MiniGPT-4	Owl	82.2	78.4	79.0
Shikra	Owl	85.2	82.3	83.4

在 Adversarial 设置下尤其突出，Shikra 上三项均为最高

GPT-4V 评估：LLaVA-1.5 上 Correctness 从 5.58→6.70（+20.1%），Detailedness 从 5.30→5.90（+11.3%）

VQA 保持：VizWiz +7.6%（48.8→52.5），TextVQA +3.7%，VQAv2 仅降 2.3%

消融实验要点¶

α（视觉注意力系数）：增大可降低幻觉，但过大会压缩有用内容（F1 下降），存在 trade-off
β（文本注意力系数）：增大稳步降低幻觉，F1 几乎不受影响，说明限制文本注意力更安全
λ（对比解码强度）：0.1–0.4 范围稳定有效，过高导致解码不稳定
三者互补：α 控制视觉增强，β 控制文本抑制，λ 控制对比力度

亮点¶

因果视角新颖：首次将视觉/文本注意力同时建模为 SCM 中的中介变量，提供可解释的幻觉分析框架
VTACR 指标：简洁有效地量化跨模态注意力失衡，可作为独立的幻觉检测信号
Training-free：纯推理阶段方法，即插即用，无需重训模型
不损害生成质量：幻觉减少的同时生成长度不减反增（区别于 PAI 等方法倾向生成更短输出）
双路径设计优雅：通过构建"视觉偏好"和"文本偏好"两条路径的对比，直觉清晰且效果显著

局限性 / 可改进方向¶

超参数依赖模型：α, β 需要对每个 backbone 单独调优，泛化性有限
额外推理开销：DCD 需要两次前向传播（两条路径），推理速度约减半
仅验证在有限 backbone 上：LLaVA-1.5、MiniGPT-4、Shikra 均为较早期模型，未验证在更强 LVLMs（如 LLaVA-Next、InternVL2 等）上的效果
VTACR 基准分布依赖采样数据：2000 幻觉样本从 MSCOCO 采集，对其他数据分布的适应性未讨论
POPE Popular 设置：在 MiniGPT-4 和 LLaVA-1.5 上略逊于 PAI，对高频物体场景可能需要进一步调优

与相关工作的对比¶

方法	干预方式	模态	是否训练	核心区别
VCD	视觉对比解码	单模态（视觉）	否	扰动视觉输入构造负样本
PAI	困惑度感知注意力门控	单模态	否	固定scaling，不考虑层级差异
OPERA	rollback + 注意力抑制	单模态（文本）	否	抑制重复，不处理跨模态失衡
CausalMM	因果图 + 反事实推理	双模态	否	在视觉编码器+LLM解码器干预，但放大幻觉信号
Owl	VTACR引导双路径对比	双模态（显式解耦）	否	逐层逐token自适应，幻觉信号与忠实信号拉大差距

启发与关联¶

VTACR 可扩展为通用幻觉检测器：这个指标本身可以作为 token 级幻觉概率的 proxy，用于 early stopping 或选择性后处理
双路径对比思路可推广：不限于视觉/文本，可扩展至多模态融合的其他维度（如时间/空间注意力）
与 token pruning/compression 的关联：VTACR 低的层/token 可能是冗余视觉 token 的标志，可与视觉 token 压缩方法结合
因果中介分析框架：不止适用于幻觉，可用于分析 VLM 中任何视觉-文本失衡问题（如 bias、faithfulness）

评分¶

维度	分数 (1-10)	说明
新颖性	7	因果中介变量视角新颖，但对比解码框架已有前例
技术深度	8	SCM 建模完整，VTACR 定义清晰，自适应机制设计精细
实验充分度	7	三个 backbone + 多基准，但模型偏旧，缺少最新 LVLM
实用价值	8	Training-free，即插即用，代码开源
写作质量	7	框架图清晰，公式较多但逻辑连贯
综合	7.5	扎实的幻觉抑制工作，因果建模+双路径对比解码有启发