Visual Evidence Prompting Mitigates Hallucinations in Large Vision-Language Models¶
会议: ACL 2025 (Long Paper)
arXiv: 无(仅ACL Anthology)
代码: 未提及
领域: 多模态VLM / AI安全
关键词: LVLM幻觉, 视觉证据, 小模型辅助, 目标检测, 场景图生成
一句话总结¶
提出Visual Evidence Prompting (VEP),利用小型视觉专家模型(目标检测器、场景图生成器)的输出作为文本化"视觉证据"输入LVLM,无需训练即可在11个LVLM上显著降低幻觉——LLaVA-1.5在POPE上提升7.2%、Claude 3上提升12.1%。
背景与动机¶
LVLM的幻觉(生成图像中不存在的物体/关系/属性)根源是什么?作者通过深入的归因分析发现:幻觉主要源于细粒度视觉区分能力不足。具体证据:(1) 幻觉发生时,模型在语义/外观相似区域的错误激活占比达58.5%(如把棒球棒误当球);(2) 幻觉物体的CLIPScore与图像更高,说明语义相似性导致混淆;(3) 视觉token内部对幻觉物体的置信度反常地高于正确物体。
核心问题¶
如何增强LVLM的细粒度视觉感知能力来缓解幻觉,而不需要重新训练模型?
方法详解¶
整体框架¶
将"小型视觉专家模型"的输出符号化为文本提示,和原始问题一起输入LVLM。类似人类看图回答问题时先辨识关键元素再推理。
关键设计¶
- 视觉证据提取:
- 目标检测器(如DINO等):输出图像中检测到的物体类别和数量,格式化为"3 dogs, 1 cat"
- 场景图生成器(如SGG模型):输出⟨主体, 关系, 客体⟩三元组,格式化为"man on surfboard, man has hair"
-
将这些符号化输出合并为视觉证据文本
-
提示构造: 极简模板——"You can see {evidence} in the image. {question}"。将视觉证据作为前缀上下文,不需要复杂的prompt工程。
-
归因分析: 通过图像归因图(attention attribution map)可视化发现:加入视觉证据后,错误激活被抑制、正确区域的激活增强。即视觉证据帮助模型"校准"了对图像的注意力分配。
损失函数 / 训练策略¶
- 完全无需训练(training-free),即插即用
- 也无需访问模型内部参数(model-free),适用于API服务(GPT-4V, Claude, Gemini)
- 仅需额外运行小型检测器/SGG模型
实验关键数据¶
| 模型 | POPE Acc | +VEP | AMBER CHAIR↓ | +VEP | RPE Acc | +VEP |
|---|---|---|---|---|---|---|
| LLaVA-1.5-7B | 80.23 | 87.43 (+7.2) | 8.07 | 6.78 (-1.3) | 61.92 | 68.00 (+6.1) |
| LLaVA-1.6-7B | 84.93 | 89.43 (+4.5) | 8.59 | 7.73 (-0.9) | 70.20 | 70.46 (+0.3) |
| MiniGPT-4-v2 | 75.33 | 83.17 (+7.8) | 8.67 | 8.39 (-0.3) | 60.75 | 68.38 (+7.6) |
| GPT-4V (API) | 82.21 | 86.41 (+4.2) | 6.97 | 6.76 (-0.2) | 75.56 | 76.05 (+0.5) |
| Claude 3 (API) | 75.40 | 87.50 (+12.1) | 5.34 | 5.00 (-0.3) | 69.57 | 70.57 (+1.0) |
| Gemini 1.5 Pro | 82.43 | 87.32 (+4.9) | 8.70 | 7.63 (-1.1) | 69.06 | 71.13 (+2.1) |
- 在11个不同LVLM上均有效
- token/sec略有下降(23.96 vs 28.86,因为输入变长)
- 新提出的RPE关系幻觉评估数据集上也有显著提升
消融实验要点¶
- 检测器 vs SGG: 目标检测证据对物体幻觉贡献最大,SGG对关系幻觉贡献最大
- 证据质量: 使用ground truth标注作为证据时效果上界更高,说明提升空间仍取决于小模型质量
- Claude 3提升最大: 可能因为Claude本身视觉感知较弱但语言理解强——视觉证据正好补充短板
- 对通用任务的影响: 在MMBench、SEED等通用视觉理解benchmark上保持或提升性能
亮点¶
- 分析驱动: 先深入分析幻觉原因(58.5%错误激活归因于语义相似区域),再对症下药
- 极简但有效: 不需要训练、不需要模型参数、简单的文本拼接即可大幅降低幻觉
- 跨模型通用: 在开源模型和API模型上都有效,包括GPT-4V、Claude、Gemini
- 符号化桥梁: 小型视觉专家通过符号化输出"教"LVLM看得更准,是一种优雅的"专家集成"
局限性 / 可改进方向¶
- 依赖外部小模型的质量——如果检测器漏检或误检,会引入新的错误
- token/sec有约17%下降,因为prompt变长了
- 目标检测器的标签空间有限(如COCO 80类),开放世界物体无法提供证据
- 未探索视觉证据的自动质量评估和过滤机制
- 与VHR(注意力头增强方法)可能互补但未做对比
与相关工作的对比¶
- vs VCD (对比解码): VCD在输出层面做对比,VEP在输入层面加证据——VEP不改变模型行为只加信息
- vs LRV (指令微调): LRV需要训练且有灾难性遗忘风险,VEP完全无需训练
- vs VHR (注意力头增强): VHR从内部增强视觉注意力头,VEP从外部补充视觉信息——两者正交
启发与关联¶
- "小模型辅助大模型"的范式可以推广——例如用小型分割模型/深度估计模型提供更多视觉证据
- 与 Cracking Hallucination (VHD/VHR) 论文结合:VHR增强内部视觉注意力+VEP增加外部视觉证据,可能1+1>2
- 开放世界检测器(如Grounding DINO/YOLO-World)可以解决标签空间限制问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 方法简单但insight深刻(归因分析驱动的设计)
- 实验充分度: ⭐⭐⭐⭐⭐ 11个模型×5个benchmark,分析极其详尽
- 写作质量: ⭐⭐⭐⭐⭐ 从分析到方法到验证的逻辑链极其清晰
- 价值: ⭐⭐⭐⭐ 即插即用的幻觉缓解方法,实践价值高