Causal-LLaVA: Causal Disentanglement for Mitigating Hallucination in Multimodal Large Language Models¶

会议: NeurIPS 2025
arXiv: 2505.19474
代码: https://github.com/IgniSavium/Causal-LLaVA
领域: 多模态VLM
关键词: hallucination, causal inference, disentanglement, MLLM, co-occurrence bias, backdoor adjustment

一句话总结¶

揭示 MLLM 中物体幻觉的表示层根因——数据集共现偏差导致的语义纠缠，提出双路因果解纠缠框架（Causal-Driven Projector + Causal Intervention Module），通过后门调整在 projector 和最终 Transformer 层分离共现物体表示，使 MME-Perception 提升 22.6%。

背景与动机¶

MLLM 的物体幻觉（描述不存在的物体）主要源于训练数据中的共现偏差——如"餐桌"总与"椅子"同框出现，模型学会了这种虚假关联。但先前工作仅在统计层面验证了共现频率与幻觉率的相关性，未深入探究表示空间中的机制。

本文的关键发现：通过可视化 LLaVA 各层的物体表示（PCA），发现： - CLIP 编码器输出时物体表示分散（正常） - 经 Projector 处理后高频共现物体表示急剧聚拢（纠缠形成） - 纠缠持续传播至 LLM 的 1-15 层（理解阶段） - 在最终第 40 层（预测阶段）仍保留显著纠缠

这意味着 projector 是偏差注入的关键节点，且偏差一旦形成就贯穿整个推理过程。

核心问题¶

如何从表示学习层面阻断共现偏差的传播，使共现物体的语义表示解纠缠，从而减少物体幻觉？

方法详解¶

整体框架¶

在 LLaVA 的两个关键位置插入因果干预模块：(1) Projector 后（阻断视觉混淆因子 \(D_v\) 向 soft tokens \(S\) 的传播），(2) LLM 最终 Transformer 层（阻断视觉/文本混淆因子 \(D_v\)/\(D_t\) 向预测 \(W\) 的传播）。

关键设计¶

Causal-Driven Projector: 基于后门调整公式 \(P(Y|do(X)) \approx_{NWGM} g_f(f_v) + g_z(\mathbb{E}_z[z])\)，将原始 projector 输出与混淆因子期望值的估计相加。混淆因子字典 \(D \in \mathbb{R}^{K \times \sigma}\) 由 80 类 COCO 物体的平均 post-projector 视觉表示构成（从 5000 样本聚合），通过交叉注意力动态估计 \(\mathbb{E}_z[z]\)。
Causal Intervention Module（LLM 层）: 在最终 Transformer 层插入，分别用视觉和文本混淆因子字典 \(D_v, D_t\) 做交叉注意力干预：\(\text{CausalIntervention}(h) = \text{CrossAttn}(h, D_v, D_v) + \text{CrossAttn}(h, D_t, D_t)\)，解耦隐状态中的视觉和文本共现偏差。
NWGM 近似: 因果干预的精确计算需遍历所有混淆因子，计算量大。利用 Normalized Weighted Geometric Mean 将 Softmax 外的期望移入内部，简化为 \(\text{Softmax}[g(x, \mathbb{E}_z[z])]\)。

损失函数 / 训练策略¶

保持 LLaVA 原始训练配置，仅修改：batch 256（2x）、lr 1e-3（0.5x）。混淆因子字典从非因果模型训练 0.1 epoch 的 checkpoint 中提取。8×H20 GPU 训练，混淆因子估计额外 ~1 小时。

实验关键数据¶

模型	LLM	POPE_rnd	MME_P	CHAIR_s↓	CHAIR_i↓
LLaVA	LLaMA-2-7B	71.70	714.29	33.0	9.5
Causal-LLaVA	LLaMA-2-7B	72.72	757.16	30.9	9.2
LLaVA	LLaMA-2-13B	78.60	711.22	30.3	8.7
Causal-LLaVA	LLaMA-2-13B	79.54	872.09	28.2	8.5
LLaVA1.5	Vicuna-1.5-7B	87.34	1508.51	52.1	14.9
Causal-LLaVA1.5	Vicuna-1.5-7B	88.18	1522.10	51.4	14.8

视觉理解能力同时提升：MMBench +2.0%, MM-Vet +4.8%, GQA +2.7%, VizWiz +8.4%。

消融实验要点¶

双路 vs 单路：Only-projector (MME 748.70) + Only-transformer (726.15) < Both (757.16)，双路互补
投影矩阵选择：共享 \(W_k/W_v\) 最优（CHAIR_s 27.7），独立 \(W_q/W_v\) 或 \(W_q/W_o\) 导致灾难性退化（CHAIR_i 24.2-24.8）
PCA 可视化：解纠缠后，原本紧密聚类的"餐桌"及其共现物体在所有层都显著分离

亮点¶

表示层面的因果分析是核心贡献——首次可视化并量化了共现偏差在 MLLM 各层的传播过程
端到端架构级解决方案，不需要合成数据、外部模型或后处理
混淆因子字典是简洁优雅的设计——用 80 类物体的平均表示就足够
可视化分析极为充分（6 组 PCA 图覆盖原始/解纠缠 × 视觉/文本 × 多物体）

局限性 / 可改进方向¶

需 8×H20 GPU，计算资源要求较高
混淆因子估计可能受噪声或数据集分布影响
基于 LLaVA（较早的 MLLM），未在更新模型（如 InternVL、Qwen-VL）上验证
CHAIR 提升幅度在 LLaVA 1.5 上较小（52.1→51.4），可能因 1.5 版本已部分缓解数据偏差

与相关工作的对比¶

vs VCD/OPERA（对比解码）: 对比解码在推理时干预，不改变表示学习；Causal-LLaVA 从训练过程中解决根因
vs LRV/VIGC（数据校正）: 数据方法依赖 GPT-4 生成，有错误传播风险；本方法不需要额外数据
vs Deconfounded Captioning: 先前因果方法仅在输出 Softmax 层做 NWGM 近似；本文将因果干预深入到特征空间，在 projector 和 Transformer 层双路干预

启发与关联¶

共现偏差解纠缠的思路可用于场景图生成（Scene Graph Generation）的去偏差
混淆因子字典可动态更新——用在线估计替代离线统计，适应领域变化
与 BACL（同批次笔记）的关联：BACL 用模糊负样本改善对齐，Causal-LLaVA 用因果干预解偏差——两者可结合

评分¶

新颖性: ⭐⭐⭐⭐ 表示层面的因果分析视角新颖，但因果干预在 VQA/captioning 中有先例
实验充分度: ⭐⭐⭐⭐ 10 个基准、多 backbone、大量可视化，但缺乏最新 MLLM 对比
写作质量: ⭐⭐⭐⭐⭐ 分析驱动的研究范式优秀，从现象到原因到解决方案逻辑清晰
价值: ⭐⭐⭐⭐ 为 MLLM 幻觉提供了有因果理论支撑的架构级解决方案