Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation¶
会议: ACL 2026
arXiv: 2604.20366
代码: 无
领域: 多模态VLM / 幻觉缓解
关键词: 视觉语言模型, 对象幻觉, 表示干预, 正交投影, 选择性参数编辑
一句话总结¶
本文提出 MPD 框架,通过语义感知正交子空间投影分离幻觉成分,并仅选择性更新与幻觉最相关的少量参数,在减少 23.4% 幻觉的同时保持 97.4% 的通用生成能力,不引入额外推理开销。
研究背景与动机¶
领域现状:大型视觉语言模型(LVLM)在跨模态理解和生成上表现优异,但普遍存在对象幻觉问题——生成的文本描述会编造不存在的物体、错误归属视觉属性或虚构空间关系。主流缓解方法分为两条路线:标注数据微调(代价高)和表示干预(高效但有副作用)。
现有痛点:表示干预方法(如 Nullu)虽然无需标注数据,但处理后的 LVLM 会丧失通用生成能力——表现为语义不连贯和词汇重复率升高。根本原因有二:(1)幻觉成分提取时与通用语义高度耦合,简单差分会误删正常语义;(2)参数更新时对目标层所有权重施加大幅扰动,修改数亿参数导致过拟合和原始参数分布破坏。
核心矛盾:幻觉成分与通用语义在隐藏表示空间中高度纠缠,粗暴的全局干预必然同时破坏两者——如何精确分离幻觉信号并最小扰动地抑制它?
本文目标:设计一个双阶段框架,在有效缓解幻觉的同时保持模型的通用生成能力,且不引入额外推理成本。
切入角度:从线性代数的正交投影理论出发,将忠实表示和幻觉表示视为不同子空间的成分,通过 SVD 分解实现精确解耦。
核心 idea:正交投影提取纯幻觉成分 + 余弦相似度选择性参数编辑 = 精准抑制幻觉且不损害生成能力。
方法详解¶
整体框架¶
MPD 分为两个阶段:(1)幻觉成分提取——利用对比查询对构建忠实/幻觉表示,通过 SVD 正交投影分离出纯幻觉成分;(2)选择性参数更新——通过余弦相似度找到与幻觉成分最相关的权重向量,仅对这些权重施加空间投影编辑。输入是原始 LVLM + 少量对比数据对,输出是编辑后的无额外推理开销的 LVLM。
关键设计¶
-
语义感知幻觉成分解耦(正交投影):
- 功能:从幻觉表示中精确提取不含通用语义的"纯"幻觉成分
- 核心思路:对每层 \(\ell\),收集忠实描述的隐状态矩阵 \(\mathbf{X}_\ell^+\) 和幻觉描述的隐状态矩阵 \(\mathbf{X}_\ell^-\)。对 \(\mathbf{X}_\ell^+\) 做 SVD 得到忠实子空间的投影矩阵 \(\mathbf{P}_\ell = \mathbf{U}_\ell \mathbf{U}_\ell^\top\),然后将幻觉表示投影到忠实子空间的正交补空间:\(\tilde{\mathbf{X}}_\ell = (\mathbf{I} - \mathbf{P}_\ell) \mathbf{X}_\ell^-\)。论文证明了这种方法比朴素差分(\(\mathbf{X}^- - \mathbf{X}^+\))在估计纯幻觉成分上更准确
- 设计动机:朴素差分会引入忠实子空间中的幻觉平行分量和双倍噪声,而正交投影自动消除与忠实语义共享的成分,保证提取的幻觉方向不会"误伤"正常生成能力
-
选择性参数识别与编辑:
- 功能:仅修改与幻觉最相关的少数权重,最小化对原始参数分布的扰动
- 核心思路:对权重矩阵 \(\mathbf{W}_\ell\) 的每行 \(\mathbf{w}_\ell^{(i)}\),计算其与幻觉成分 \(\tilde{\mathbf{x}}_{\ell,j}\) 的平均余弦相似度 \(s_i\),选择 top-K 个最高相似度的权重向量。然后构造幻觉子空间的正交补投影矩阵 \(\tilde{\mathbf{Q}}_\ell = \mathbf{I} - \tilde{\mathbf{X}}_\ell^\top (\tilde{\mathbf{X}}_\ell \tilde{\mathbf{X}}_\ell^\top)^{-1} \tilde{\mathbf{X}}_\ell\),仅对选中的权重执行 \(\mathbf{w}_\ell^{(i)} \leftarrow \tilde{\mathbf{Q}}_\ell \mathbf{w}_\ell^{(i)}\)
- 设计动机:Nullu 等方法修改目标层所有参数,导致参数扰动过大(数亿参数)。MPD 在 mPLUG-Owl2 上减少 42%、MiniGPT4 上减少 37% 的参数修改量
-
对比查询对构建:
- 功能:提供配对的幻觉/忠实表示用于成分提取
- 核心思路:利用辅助 LLM 为同一图像构建语义等价但一个诱导幻觉、一个忠实于图像的查询对。使用 LURE 数据集作为配对数据源
- 设计动机:需要同一图像在幻觉和忠实两种条件下的表示来进行差异分析
损失函数 / 训练策略¶
MPD 是无训练(training-free)方法——不涉及梯度优化,仅通过 SVD 分解和投影操作直接编辑模型权重。整个流程在编辑完成后,推理时与原模型完全相同,无额外计算开销。
实验关键数据¶
主实验(CHAIR 基准)¶
| 模型 | 方法 | CHAIR_S ↓ | CHAIR_I ↓ | BLEU ↑ |
|---|---|---|---|---|
| LLaVA-1.5-7B | Greedy | 20.40 | 7.08 | 15.72 |
| LLaVA-1.5-7B | Nullu | 15.20 | 5.30 | 15.69 |
| LLaVA-1.5-7B | MPD | 12.80 | 4.20 | 15.31 |
| mPLUG-Owl2 | Greedy | 22.90 | 8.62 | 15.01 |
| mPLUG-Owl2 | Nullu | 15.60 | 5.77 | 15.45 |
| mPLUG-Owl2 | MPD | 14.00 | 4.99 | 16.06 |
| MiniGPT-4 | Greedy | 32.40 | 12.20 | 14.57 |
| MiniGPT-4 | Nullu | 21.40 | 8.99 | 14.81 |
| MiniGPT-4 | MPD | 19.40 | 7.50 | 14.98 |
消融实验(LLaVA-Bench 生成能力)¶
| 模型 | 方法 | Accuracy ↑ | Detailedness ↑ |
|---|---|---|---|
| MiniGPT-4 | Original | 4.05 | 3.95 |
| MiniGPT-4 | MPD | 5.53 | 4.67 |
| mPLUG-Owl2 | Original | 5.76 | 4.22 |
| mPLUG-Owl2 | MPD | 6.13 | 4.62 |
| LLaVA-1.5-7B | Original | 5.59 | 4.72 |
| LLaVA-1.5-7B | MPD | 6.39 | — |
关键发现¶
- MPD 在所有模型和所有基准上都同时实现了最低幻觉率和最高/竞争性的生成质量(BLEU),打破了此前幻觉缓解与生成能力之间的 trade-off
- 在 POPE 基准的三种设置(random/popular/adversarial)下,MPD 在所有模型上均取得最高 F1
- 在 LLaVA-Bench 上 MPD 不仅没有降低生成能力,反而提升了准确度和详细度——说明去除幻觉噪声本身就能改善生成质量
- 在 HallusionBench 上也有一致提升,表明方法泛化到超越对象幻觉的更细粒度幻觉场景
亮点与洞察¶
- 正交投影的理论优雅性——Proposition 1 严格证明了投影方法比朴素差分在估计幻觉成分上的期望误差更小,给出了方法的数学基础而非仅靠经验
- 选择性参数编辑的思想很有实用价值——减少 37-42% 的参数修改量却获得更好效果,说明"少即是多"——精准打击比全面轰炸更有效
- 编辑后的模型推理开销为零(参数已永久修改),这比需要修改推理流程的 VCD、OPERA 等方法更适合实际部署
局限与展望¶
- 仅在三个较小的 LVLM 上验证(MiniGPT-4、mPLUG-Owl2、LLaVA-1.5-7B),未在更大更新的模型(如 LLaVA-Next、Qwen-VL)上测试
- 需要预先准备对比数据对,虽然规模不大但增加了pipeline复杂度
- 正交投影假设幻觉和忠实语义可以线性分离,对于高度非线性纠缠的情况可能失效
- SVD 中保留的主成分数 C 和 top-K 参数选择需要调参
相关工作与启发¶
- vs Nullu (Yang et al., 2025): 同样使用零空间投影但对所有权重操作,MPD 增加正交解耦和选择性编辑两个改进,在幻觉指标和生成质量上均优于 Nullu
- vs VCD (Leng et al., 2024): VCD 在解码时引入对比分布约束,增加推理延迟;MPD 编辑后推理零开销
- vs HALC (Chen et al., 2024): HALC 依赖外部视觉定位模块做后验修正,引入额外模型依赖;MPD 自包含无外部依赖
评分¶
- 新颖性: ⭐⭐⭐⭐ 正交投影+选择性编辑的组合有理论支撑,但核心思路是对 Nullu 的改进而非全新范式
- 实验充分度: ⭐⭐⭐⭐ 5个基准、3个模型、多种对比方法,但模型规模偏小
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,但符号较多
- 价值: ⭐⭐⭐⭐ 实用性强——零推理开销的幻觉缓解对部署有直接价值
相关论文¶
- [CVPR 2026] Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance
- [CVPR 2026] HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models
- [ACL 2026] Benchmarking Deflection and Hallucination in Large Vision-Language Models
- [NeurIPS 2025] When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations
- [ACL 2026] Topology-Aware Layer Pruning for Large Vision-Language Models