跳转至

Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation

会议: ACL 2026
arXiv: 2604.20366
代码: 无
领域: 多模态VLM / 幻觉缓解
关键词: 视觉语言模型, 对象幻觉, 表示干预, 正交投影, 选择性参数编辑

一句话总结

本文提出 MPD 框架,通过语义感知正交子空间投影分离幻觉成分,并仅选择性更新与幻觉最相关的少量参数,在减少 23.4% 幻觉的同时保持 97.4% 的通用生成能力,不引入额外推理开销。

研究背景与动机

领域现状:大型视觉语言模型(LVLM)在跨模态理解和生成上表现优异,但普遍存在对象幻觉问题——生成的文本描述会编造不存在的物体、错误归属视觉属性或虚构空间关系。主流缓解方法分为两条路线:标注数据微调(代价高)和表示干预(高效但有副作用)。

现有痛点:表示干预方法(如 Nullu)虽然无需标注数据,但处理后的 LVLM 会丧失通用生成能力——表现为语义不连贯和词汇重复率升高。根本原因有二:(1)幻觉成分提取时与通用语义高度耦合,简单差分会误删正常语义;(2)参数更新时对目标层所有权重施加大幅扰动,修改数亿参数导致过拟合和原始参数分布破坏。

核心矛盾:幻觉成分与通用语义在隐藏表示空间中高度纠缠,粗暴的全局干预必然同时破坏两者——如何精确分离幻觉信号并最小扰动地抑制它?

本文目标:设计一个双阶段框架,在有效缓解幻觉的同时保持模型的通用生成能力,且不引入额外推理成本。

切入角度:从线性代数的正交投影理论出发,将忠实表示和幻觉表示视为不同子空间的成分,通过 SVD 分解实现精确解耦。

核心 idea:正交投影提取纯幻觉成分 + 余弦相似度选择性参数编辑 = 精准抑制幻觉且不损害生成能力。

方法详解

整体框架

MPD 分为两个阶段:(1)幻觉成分提取——利用对比查询对构建忠实/幻觉表示,通过 SVD 正交投影分离出纯幻觉成分;(2)选择性参数更新——通过余弦相似度找到与幻觉成分最相关的权重向量,仅对这些权重施加空间投影编辑。输入是原始 LVLM + 少量对比数据对,输出是编辑后的无额外推理开销的 LVLM。

关键设计

  1. 语义感知幻觉成分解耦(正交投影):

    • 功能:从幻觉表示中精确提取不含通用语义的"纯"幻觉成分
    • 核心思路:对每层 \(\ell\),收集忠实描述的隐状态矩阵 \(\mathbf{X}_\ell^+\) 和幻觉描述的隐状态矩阵 \(\mathbf{X}_\ell^-\)。对 \(\mathbf{X}_\ell^+\) 做 SVD 得到忠实子空间的投影矩阵 \(\mathbf{P}_\ell = \mathbf{U}_\ell \mathbf{U}_\ell^\top\),然后将幻觉表示投影到忠实子空间的正交补空间:\(\tilde{\mathbf{X}}_\ell = (\mathbf{I} - \mathbf{P}_\ell) \mathbf{X}_\ell^-\)。论文证明了这种方法比朴素差分(\(\mathbf{X}^- - \mathbf{X}^+\))在估计纯幻觉成分上更准确
    • 设计动机:朴素差分会引入忠实子空间中的幻觉平行分量和双倍噪声,而正交投影自动消除与忠实语义共享的成分,保证提取的幻觉方向不会"误伤"正常生成能力
  2. 选择性参数识别与编辑:

    • 功能:仅修改与幻觉最相关的少数权重,最小化对原始参数分布的扰动
    • 核心思路:对权重矩阵 \(\mathbf{W}_\ell\) 的每行 \(\mathbf{w}_\ell^{(i)}\),计算其与幻觉成分 \(\tilde{\mathbf{x}}_{\ell,j}\) 的平均余弦相似度 \(s_i\),选择 top-K 个最高相似度的权重向量。然后构造幻觉子空间的正交补投影矩阵 \(\tilde{\mathbf{Q}}_\ell = \mathbf{I} - \tilde{\mathbf{X}}_\ell^\top (\tilde{\mathbf{X}}_\ell \tilde{\mathbf{X}}_\ell^\top)^{-1} \tilde{\mathbf{X}}_\ell\),仅对选中的权重执行 \(\mathbf{w}_\ell^{(i)} \leftarrow \tilde{\mathbf{Q}}_\ell \mathbf{w}_\ell^{(i)}\)
    • 设计动机:Nullu 等方法修改目标层所有参数,导致参数扰动过大(数亿参数)。MPD 在 mPLUG-Owl2 上减少 42%、MiniGPT4 上减少 37% 的参数修改量
  3. 对比查询对构建:

    • 功能:提供配对的幻觉/忠实表示用于成分提取
    • 核心思路:利用辅助 LLM 为同一图像构建语义等价但一个诱导幻觉、一个忠实于图像的查询对。使用 LURE 数据集作为配对数据源
    • 设计动机:需要同一图像在幻觉和忠实两种条件下的表示来进行差异分析

损失函数 / 训练策略

MPD 是无训练(training-free)方法——不涉及梯度优化,仅通过 SVD 分解和投影操作直接编辑模型权重。整个流程在编辑完成后,推理时与原模型完全相同,无额外计算开销。

实验关键数据

主实验(CHAIR 基准)

模型 方法 CHAIR_S ↓ CHAIR_I ↓ BLEU ↑
LLaVA-1.5-7B Greedy 20.40 7.08 15.72
LLaVA-1.5-7B Nullu 15.20 5.30 15.69
LLaVA-1.5-7B MPD 12.80 4.20 15.31
mPLUG-Owl2 Greedy 22.90 8.62 15.01
mPLUG-Owl2 Nullu 15.60 5.77 15.45
mPLUG-Owl2 MPD 14.00 4.99 16.06
MiniGPT-4 Greedy 32.40 12.20 14.57
MiniGPT-4 Nullu 21.40 8.99 14.81
MiniGPT-4 MPD 19.40 7.50 14.98

消融实验(LLaVA-Bench 生成能力)

模型 方法 Accuracy ↑ Detailedness ↑
MiniGPT-4 Original 4.05 3.95
MiniGPT-4 MPD 5.53 4.67
mPLUG-Owl2 Original 5.76 4.22
mPLUG-Owl2 MPD 6.13 4.62
LLaVA-1.5-7B Original 5.59 4.72
LLaVA-1.5-7B MPD 6.39

关键发现

  • MPD 在所有模型和所有基准上都同时实现了最低幻觉率和最高/竞争性的生成质量(BLEU),打破了此前幻觉缓解与生成能力之间的 trade-off
  • 在 POPE 基准的三种设置(random/popular/adversarial)下,MPD 在所有模型上均取得最高 F1
  • 在 LLaVA-Bench 上 MPD 不仅没有降低生成能力,反而提升了准确度和详细度——说明去除幻觉噪声本身就能改善生成质量
  • 在 HallusionBench 上也有一致提升,表明方法泛化到超越对象幻觉的更细粒度幻觉场景

亮点与洞察

  • 正交投影的理论优雅性——Proposition 1 严格证明了投影方法比朴素差分在估计幻觉成分上的期望误差更小,给出了方法的数学基础而非仅靠经验
  • 选择性参数编辑的思想很有实用价值——减少 37-42% 的参数修改量却获得更好效果,说明"少即是多"——精准打击比全面轰炸更有效
  • 编辑后的模型推理开销为零(参数已永久修改),这比需要修改推理流程的 VCD、OPERA 等方法更适合实际部署

局限与展望

  • 仅在三个较小的 LVLM 上验证(MiniGPT-4、mPLUG-Owl2、LLaVA-1.5-7B),未在更大更新的模型(如 LLaVA-Next、Qwen-VL)上测试
  • 需要预先准备对比数据对,虽然规模不大但增加了pipeline复杂度
  • 正交投影假设幻觉和忠实语义可以线性分离,对于高度非线性纠缠的情况可能失效
  • SVD 中保留的主成分数 C 和 top-K 参数选择需要调参

相关工作与启发

  • vs Nullu (Yang et al., 2025): 同样使用零空间投影但对所有权重操作,MPD 增加正交解耦和选择性编辑两个改进,在幻觉指标和生成质量上均优于 Nullu
  • vs VCD (Leng et al., 2024): VCD 在解码时引入对比分布约束,增加推理延迟;MPD 编辑后推理零开销
  • vs HALC (Chen et al., 2024): HALC 依赖外部视觉定位模块做后验修正,引入额外模型依赖;MPD 自包含无外部依赖

评分

  • 新颖性: ⭐⭐⭐⭐ 正交投影+选择性编辑的组合有理论支撑,但核心思路是对 Nullu 的改进而非全新范式
  • 实验充分度: ⭐⭐⭐⭐ 5个基准、3个模型、多种对比方法,但模型规模偏小
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,但符号较多
  • 价值: ⭐⭐⭐⭐ 实用性强——零推理开销的幻觉缓解对部署有直接价值

相关论文