GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity¶
会议: NeurIPS 2025
arXiv: 2508.19972
代码: 未提及
领域: 多模态VLM
关键词: object hallucination, hallucination detection, global-local similarity, vision-language model, training-free
一句话总结¶
提出 GLSim,一种无训练的物体幻觉检测框架,结合图像-文本间的全局和局部嵌入相似度信号来判断 LVLM 生成的物体是否为幻觉,显著超越仅使用全局或局部信号的方法。
背景与动机¶
LVLM 的物体幻觉(生成图像中不存在的物体)是安全部署的重要挑战。现有幻觉检测方法通常只采用单一视角: - 全局方法:计算整张图像与物体名称的全局语义相似度,但忽略物体在图像中的局部定位 - 局部方法:关注图像的局部区域(如检测到的物体区域)与描述的匹配,但缺乏全局上下文
单一视角各有盲区——全局方法可能因图像整体语义与物体相关而漏检;局部方法可能因裁剪区域不准确而误检。
核心问题¶
如何同时利用全局和局部的图文相似度信号,更准确可靠地检测 LVLM 的物体幻觉?
方法详解¶
关键设计¶
-
全局相似度: 计算整张图像与待验证物体名称在 CLIP/SigLIP 等对齐模型中的嵌入余弦相似度。高相似度表明物体可能存在于图像中。
-
局部相似度: 利用视觉grounding或注意力机制定位物体可能出现的区域,计算局部裁剪区域与物体名称的嵌入相似度。局部高相似度提供更精确的定位证据。
-
全局-局部融合: 将两种相似度分数组合为统一的幻觉检测分数。两种信号互补——全局信号提供场景级别的合理性判断,局部信号提供实例级别的存在性验证。
-
无训练框架: 不需要额外训练或微调,直接利用预训练的视觉-语言对齐模型进行推理时检测。
训练策略¶
完全无训练。利用现成的 CLIP/SigLIP 等预训练模型的嵌入空间。
实验关键数据¶
在全面的物体幻觉检测基准上,GLSim 显著超越现有的全局或局部单一方法,证明了互补信号的价值。
消融实验要点¶
- 仅全局 vs 仅局部 vs 全局+局部:组合显著优于任一单独方法
- 不同视觉-语言对齐模型的效果对比
- 在不同 LVLM(LLaVA、InstructBLIP 等)生成的输出上的泛化性
亮点¶
- 全局-局部互补的思路简洁直觉且有效
- 无训练——即插即用于任何 LVLM 的后处理
- 全面的基准测试——系统性比较了现有幻觉检测方法
- 与 Causal-LLaVA(同系列笔记)互补:Causal-LLaVA 从训练端减少幻觉,GLSim 从推理端检测幻觉
局限性 / 可改进方向¶
- 依赖 CLIP 等外部模型的质量——CLIP 本身有 bag-of-words 问题
- 局部定位的准确性受 grounding 方法限制
- 仅处理物体级幻觉,不处理属性/关系级幻觉
- 全局-局部的融合权重可能需要任务特定调优
与相关工作的对比¶
- vs POPE (基准): POPE 评估幻觉,GLSim 检测幻觉——是检测方法而非评估基准
- vs Woodpecker: Woodpecker 用外部专家模型纠正幻觉;GLSim 仅做检测,更轻量
- vs Causal-LLaVA(同系列笔记): Causal-LLaVA 从因果角度减少幻觉生成;GLSim 作为后处理检测幻觉——两者可串联
启发与关联¶
- 全局-局部互补思路可迁移到其他检测任务(如 OOD 检测、事实核查)
- 可与 Causal-LLaVA 结合:先用 Causal-LLaVA 减少幻觉产生,再用 GLSim 检测残留幻觉
- 局部相似度信号可用于引导 VLM 的视觉注意力——"注意力不在的地方更可能是幻觉"
评分¶
- 新颖性: ⭐⭐⭐⭐ 全局-局部融合对幻觉检测来说是自然但之前未被充分探索的思路
- 实验充分度: ⭐⭐⭐⭐ 全面的基准比较和消融
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述简洁
- 价值: ⭐⭐⭐⭐ 无训练即插即用,实用性强