Mitigating Hallucinations in Large Vision-Language Models without Performance Degradation¶

会议: ACL 2026
arXiv: 2604.20366
代码: 无
领域: 多模态VLM / 幻觉缓解
关键词: 视觉语言模型, 对象幻觉, 表示干预, 正交投影, 选择性参数编辑

一句话总结¶

本文提出 MPD 框架，通过语义感知正交子空间投影分离幻觉成分，并仅选择性更新与幻觉最相关的少量参数，在减少 23.4% 幻觉的同时保持 97.4% 的通用生成能力，不引入额外推理开销。

研究背景与动机¶

领域现状：大型视觉语言模型（LVLM）在跨模态理解和生成上表现优异，但普遍存在对象幻觉问题——生成的文本描述会编造不存在的物体、错误归属视觉属性或虚构空间关系。主流缓解方法分为两条路线：标注数据微调（代价高）和表示干预（高效但有副作用）。

现有痛点：表示干预方法（如 Nullu）虽然无需标注数据，但处理后的 LVLM 会丧失通用生成能力——表现为语义不连贯和词汇重复率升高。根本原因有二：（1）幻觉成分提取时与通用语义高度耦合，简单差分会误删正常语义；（2）参数更新时对目标层所有权重施加大幅扰动，修改数亿参数导致过拟合和原始参数分布破坏。

核心矛盾：幻觉成分与通用语义在隐藏表示空间中高度纠缠，粗暴的全局干预必然同时破坏两者——如何精确分离幻觉信号并最小扰动地抑制它？

本文目标：设计一个双阶段框架，在有效缓解幻觉的同时保持模型的通用生成能力，且不引入额外推理成本。

切入角度：从线性代数的正交投影理论出发，将忠实表示和幻觉表示视为不同子空间的成分，通过 SVD 分解实现精确解耦。

核心 idea：正交投影提取纯幻觉成分 + 余弦相似度选择性参数编辑 = 精准抑制幻觉且不损害生成能力。

方法详解¶

整体框架¶

MPD 分为两个阶段：（1）幻觉成分提取——利用对比查询对构建忠实/幻觉表示，通过 SVD 正交投影分离出纯幻觉成分；（2）选择性参数更新——通过余弦相似度找到与幻觉成分最相关的权重向量，仅对这些权重施加空间投影编辑。输入是原始 LVLM + 少量对比数据对，输出是编辑后的无额外推理开销的 LVLM。

关键设计¶

语义感知幻觉成分解耦（正交投影）:
- 功能：从幻觉表示中精确提取不含通用语义的"纯"幻觉成分
- 核心思路：对每层 \(\ell\)，收集忠实描述的隐状态矩阵 \(\mathbf{X}_\ell^+\) 和幻觉描述的隐状态矩阵 \(\mathbf{X}_\ell^-\)。对 \(\mathbf{X}_\ell^+\) 做 SVD 得到忠实子空间的投影矩阵 \(\mathbf{P}_\ell = \mathbf{U}_\ell \mathbf{U}_\ell^\top\)，然后将幻觉表示投影到忠实子空间的正交补空间：\(\tilde{\mathbf{X}}_\ell = (\mathbf{I} - \mathbf{P}_\ell) \mathbf{X}_\ell^-\)。论文证明了这种方法比朴素差分（\(\mathbf{X}^- - \mathbf{X}^+\)）在估计纯幻觉成分上更准确
- 设计动机：朴素差分会引入忠实子空间中的幻觉平行分量和双倍噪声，而正交投影自动消除与忠实语义共享的成分，保证提取的幻觉方向不会"误伤"正常生成能力
选择性参数识别与编辑:
- 功能：仅修改与幻觉最相关的少数权重，最小化对原始参数分布的扰动
- 核心思路：对权重矩阵 \(\mathbf{W}_\ell\) 的每行 \(\mathbf{w}_\ell^{(i)}\)，计算其与幻觉成分 \(\tilde{\mathbf{x}}_{\ell,j}\) 的平均余弦相似度 \(s_i\)，选择 top-K 个最高相似度的权重向量。然后构造幻觉子空间的正交补投影矩阵 \(\tilde{\mathbf{Q}}_\ell = \mathbf{I} - \tilde{\mathbf{X}}_\ell^\top (\tilde{\mathbf{X}}_\ell \tilde{\mathbf{X}}_\ell^\top)^{-1} \tilde{\mathbf{X}}_\ell\)，仅对选中的权重执行 \(\mathbf{w}_\ell^{(i)} \leftarrow \tilde{\mathbf{Q}}_\ell \mathbf{w}_\ell^{(i)}\)
- 设计动机：Nullu 等方法修改目标层所有参数，导致参数扰动过大（数亿参数）。MPD 在 mPLUG-Owl2 上减少 42%、MiniGPT4 上减少 37% 的参数修改量
对比查询对构建:
- 功能：提供配对的幻觉/忠实表示用于成分提取
- 核心思路：利用辅助 LLM 为同一图像构建语义等价但一个诱导幻觉、一个忠实于图像的查询对。使用 LURE 数据集作为配对数据源
- 设计动机：需要同一图像在幻觉和忠实两种条件下的表示来进行差异分析

损失函数 / 训练策略¶

MPD 是无训练（training-free）方法——不涉及梯度优化，仅通过 SVD 分解和投影操作直接编辑模型权重。整个流程在编辑完成后，推理时与原模型完全相同，无额外计算开销。

实验关键数据¶

主实验（CHAIR 基准）¶

模型	方法	CHAIR_S ↓	CHAIR_I ↓	BLEU ↑
LLaVA-1.5-7B	Greedy	20.40	7.08	15.72
LLaVA-1.5-7B	Nullu	15.20	5.30	15.69
LLaVA-1.5-7B	MPD	12.80	4.20	15.31
mPLUG-Owl2	Greedy	22.90	8.62	15.01
mPLUG-Owl2	Nullu	15.60	5.77	15.45
mPLUG-Owl2	MPD	14.00	4.99	16.06
MiniGPT-4	Greedy	32.40	12.20	14.57
MiniGPT-4	Nullu	21.40	8.99	14.81
MiniGPT-4	MPD	19.40	7.50	14.98

消融实验（LLaVA-Bench 生成能力）¶

模型	方法	Accuracy ↑	Detailedness ↑
MiniGPT-4	Original	4.05	3.95
MiniGPT-4	MPD	5.53	4.67
mPLUG-Owl2	Original	5.76	4.22
mPLUG-Owl2	MPD	6.13	4.62
LLaVA-1.5-7B	Original	5.59	4.72
LLaVA-1.5-7B	MPD	6.39	—

关键发现¶

MPD 在所有模型和所有基准上都同时实现了最低幻觉率和最高/竞争性的生成质量（BLEU），打破了此前幻觉缓解与生成能力之间的 trade-off
在 POPE 基准的三种设置（random/popular/adversarial）下，MPD 在所有模型上均取得最高 F1
在 LLaVA-Bench 上 MPD 不仅没有降低生成能力，反而提升了准确度和详细度——说明去除幻觉噪声本身就能改善生成质量
在 HallusionBench 上也有一致提升，表明方法泛化到超越对象幻觉的更细粒度幻觉场景

亮点与洞察¶

正交投影的理论优雅性——Proposition 1 严格证明了投影方法比朴素差分在估计幻觉成分上的期望误差更小，给出了方法的数学基础而非仅靠经验
选择性参数编辑的思想很有实用价值——减少 37-42% 的参数修改量却获得更好效果，说明"少即是多"——精准打击比全面轰炸更有效
编辑后的模型推理开销为零（参数已永久修改），这比需要修改推理流程的 VCD、OPERA 等方法更适合实际部署

局限与展望¶

仅在三个较小的 LVLM 上验证（MiniGPT-4、mPLUG-Owl2、LLaVA-1.5-7B），未在更大更新的模型（如 LLaVA-Next、Qwen-VL）上测试
需要预先准备对比数据对，虽然规模不大但增加了pipeline复杂度
正交投影假设幻觉和忠实语义可以线性分离，对于高度非线性纠缠的情况可能失效
SVD 中保留的主成分数 C 和 top-K 参数选择需要调参

评分¶

新颖性: ⭐⭐⭐⭐ 正交投影+选择性编辑的组合有理论支撑，但核心思路是对 Nullu 的改进而非全新范式
实验充分度: ⭐⭐⭐⭐ 5个基准、3个模型、多种对比方法，但模型规模偏小
写作质量: ⭐⭐⭐⭐ 理论推导清晰，但符号较多
价值: ⭐⭐⭐⭐ 实用性强——零推理开销的幻觉缓解对部署有直接价值