跳转至

Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation

会议: CVPR 2026
arXiv: 2603.16284
代码: https://github.com/huttersadan/LTS-FS
领域: 多模态VLM
关键词: 视觉幻觉, 特征引导, 层级归因, 稀疏调整, LVLM

一句话总结

提出 LTS-FS(Locate-Then-Sparsify for Feature Steering)框架,通过因果干预归因方法定位幻觉相关层,并根据归因分数逐层稀疏地控制特征引导强度,在有效缓解 LVLM 幻觉的同时保持模型泛化能力。

研究背景与动机

  1. 领域现状:大视觉语言模型(LVLM)虽然在多模态任务上表现出色,但仍存在严重的幻觉问题——生成流畅但与视觉内容不符的描述。现有缓解方法可分为:微调方法(成本高、损害泛化)、解码增强方法(推理开销大)和特征引导方法(修改中间层特征)。
  2. 现有痛点:特征引导方法(如 Nullu、VTI)对所有层施加相同强度的引导,忽略了层间差异——有些层与幻觉高度相关,有些层则负责通用表征。均匀引导会扰动与幻觉无关的层,破坏原始特征分布,导致泛化能力下降。
  3. 核心矛盾:幻觉缓解和泛化能力保持之间的 trade-off——过强引导减少幻觉但损害通用能力,过弱引导则效果不足。
  4. 本文要解决什么:如何精准定位幻觉相关层并差异化地施加引导,只在"该调"的地方调?
  5. 切入角度:借鉴参数定位技术,通过因果干预量化每层对幻觉输出的贡献,得到层级归因分数。
  6. 核心 idea:先定位(Locate)幻觉相关层,再稀疏化(Sparsify)引导强度——高分层强调整、低分层不调整。

方法详解

整体框架

三阶段流程:(1) 构建双粒度幻觉数据集 → (2) 基于因果干预的层级归因 → (3) 按归因分数逐层稀疏地控制特征引导强度。该框架解耦于具体引导方法,可无缝集成 Nullu、VTI 等已有方法。

关键设计

  1. 双粒度幻觉数据集构建
  2. 做什么:构建 token 级和句子级两种粒度的幻觉样本
  3. 核心思路:token 级样本来自 POPE 和 Antidote 等基准的 yes/no 问答,幻觉 token 可通过规则识别;句子级样本来自 CHAIR 基准的多句描述,通过拆分并检测含幻觉 token 的句子标记为幻觉句
  4. 设计动机:短回答的幻觉体现在个别 token,长回答的幻觉则蔓延到整句,需要分粒度处理

  5. 基于因果干预的层级归因

  6. 做什么:量化每层对幻觉输出的贡献度
  7. 核心思路:在第 \(l\) 层逐头 mask 注意力输出,观察幻觉 token logits 的变化。token 级归因分数 \(s_{tok}^l = \sum_{h=1}^H \log \frac{P(y|\mathbf{h}_{l-1}, \mathbf{a}_l)}{P(y|\mathbf{h}_{l-1}, \mathbf{a}_l \odot M^h)}\)
  8. 句子级归因:通过三个指标(cue indicator、position indicator、hallucination indicator)加权聚合 token 级分数,后部 token 和含幻觉 token 获得更高权重
  9. 设计动机:直接干预比梯度分析更准确地衡量层的因果贡献

  10. 逐层稀疏特征引导

  11. 做什么:将归因分数转化为层级引导强度
  12. 核心思路:硬稀疏化 + 软加权。极低归因分数层通过阈值 \(\tau = r_s \cdot \frac{1}{L}\sum s^l\) 过滤不引导;高分层按归一化分数 \(\tilde{s}^l\) 缩放引导强度 \(\lambda_l = \lambda \cdot m_l + \lambda \cdot \tilde{s}_l\)
  13. 设计动机:低分层引导收益小但泛化损害大,应排除;高分层差异化引导实现精准调控

损失函数 / 训练策略

  • 仅需 100 句子级 + 100 token 级幻觉样本用于归因计算
  • 归因完成后策略固定,无需针对测试集修改
  • 推理时无额外开销,与原始模型推理速度一致

实验关键数据

主实验(CHAIR 指标,越低越好)

模型 方法 CS↓ CI↓ Recall Len
LLaVA-1.5-7B Regular 53.0 13.9 77.2 98.0
LLaVA-1.5-7B Nullu 50.2 13.7 76.9 93.3
LLaVA-1.5-7B LTS-FS(Nullu) 46.8 13.5 76.6 93.2
LLaVA-1.5-7B VTI 47.4 13.9 76.2 88.9
LLaVA-1.5-7B LTS-FS(VTI) 35.8 11.9 75.4 82.2
Qwen-VL2.5-7B LTS-FS(Nullu) 23.8 6.0 60.8 120.6

泛化能力(POPE 准确率 / MMMU 等)

指标 Nullu LTS-FS(Nullu) 说明
POPE-popular Acc 基线 +2% Qwen-VL-2.5-7B
LLaVA-Bench detailness 4.72 4.92 泛化能力更好
MMMU 下降 保持/提升 通用能力不受损

亮点

  • 首次在幻觉缓解中引入层级稀疏引导思想,解耦于具体引导方法具有通用性
  • 因果干预归因方法简洁有效,仅需 200 个校准样本即可完成层级归因
  • 框架 plug-and-play,可直接增强 Nullu、VTI 等已有方法的效果
  • 在缓解幻觉的同时显著保持甚至提升泛化能力(LLaVA-Bench detailness 4.72→4.92)
  • LTS-FS(VTI) 在 LLaVA-1.5-7B 上将 CHAIR-S 从 47.4 降至 35.8,降幅达 24.5%

局限性 / 可改进方向

  • 归因计算需要对每层逐头干预,大模型(>13B)上的归因开销较大且需要 GPU 显存
  • 双粒度数据集的构建依赖已有幻觉基准(POPE、CHAIR、Antidote),域外场景的适用性需验证
  • 当前仅在 LLaVA 和 Qwen-VL 系列上验证,更多架构(如 InternVL、Gemma)的适配性值得探索
  • 可考虑将归因粒度细化到注意力头或神经元级别,实现更精细的引导控制
  • 归因分数在不同任务(问答 vs 描述)间可能不一致,当前分别使用 token/句子级分数的策略较粗
  • 阈值参数 \(r_s\) 的最优选择可能因模型和任务而异
  • 与解码增强方法(如 VCD)的组合效果值得进一步探索
  • 长文本生成场景下句子级归因的计算效率有待优化

其他模型结果

  • 在 LLaVA-1.5-13B 上同样有效:CS 从 40.8 降至 35.7(LTS-FS+Nullu),32.0(LTS-FS+VTI)
  • 在 Qwen-VL2.5-7B 上 CHAIR-CI 从 7.4 降至 6.0,幻觉详细描述减少约 19%