跳转至

GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity

会议: NeurIPS 2025
arXiv: 2508.19972
代码: 未提及
领域: 多模态VLM
关键词: object hallucination, hallucination detection, global-local similarity, vision-language model, training-free

一句话总结

提出 GLSim,一种无训练的物体幻觉检测框架,结合图像-文本间的全局和局部嵌入相似度信号来判断 LVLM 生成的物体是否为幻觉,显著超越仅使用全局或局部信号的方法。

背景与动机

LVLM 的物体幻觉(生成图像中不存在的物体)是安全部署的重要挑战。现有幻觉检测方法通常只采用单一视角: - 全局方法:计算整张图像与物体名称的全局语义相似度,但忽略物体在图像中的局部定位 - 局部方法:关注图像的局部区域(如检测到的物体区域)与描述的匹配,但缺乏全局上下文

单一视角各有盲区——全局方法可能因图像整体语义与物体相关而漏检;局部方法可能因裁剪区域不准确而误检。

核心问题

如何同时利用全局和局部的图文相似度信号,更准确可靠地检测 LVLM 的物体幻觉?

方法详解

关键设计

  1. 全局相似度: 计算整张图像与待验证物体名称在 CLIP/SigLIP 等对齐模型中的嵌入余弦相似度。高相似度表明物体可能存在于图像中。

  2. 局部相似度: 利用视觉grounding或注意力机制定位物体可能出现的区域,计算局部裁剪区域与物体名称的嵌入相似度。局部高相似度提供更精确的定位证据。

  3. 全局-局部融合: 将两种相似度分数组合为统一的幻觉检测分数。两种信号互补——全局信号提供场景级别的合理性判断,局部信号提供实例级别的存在性验证。

  4. 无训练框架: 不需要额外训练或微调,直接利用预训练的视觉-语言对齐模型进行推理时检测。

训练策略

完全无训练。利用现成的 CLIP/SigLIP 等预训练模型的嵌入空间。

实验关键数据

在全面的物体幻觉检测基准上,GLSim 显著超越现有的全局或局部单一方法,证明了互补信号的价值。

消融实验要点

  • 仅全局 vs 仅局部 vs 全局+局部:组合显著优于任一单独方法
  • 不同视觉-语言对齐模型的效果对比
  • 在不同 LVLM(LLaVA、InstructBLIP 等)生成的输出上的泛化性

亮点

  • 全局-局部互补的思路简洁直觉且有效
  • 无训练——即插即用于任何 LVLM 的后处理
  • 全面的基准测试——系统性比较了现有幻觉检测方法
  • 与 Causal-LLaVA(同系列笔记)互补:Causal-LLaVA 从训练端减少幻觉,GLSim 从推理端检测幻觉

局限性 / 可改进方向

  • 依赖 CLIP 等外部模型的质量——CLIP 本身有 bag-of-words 问题
  • 局部定位的准确性受 grounding 方法限制
  • 仅处理物体级幻觉,不处理属性/关系级幻觉
  • 全局-局部的融合权重可能需要任务特定调优

与相关工作的对比

  • vs POPE (基准): POPE 评估幻觉,GLSim 检测幻觉——是检测方法而非评估基准
  • vs Woodpecker: Woodpecker 用外部专家模型纠正幻觉;GLSim 仅做检测,更轻量
  • vs Causal-LLaVA(同系列笔记): Causal-LLaVA 从因果角度减少幻觉生成;GLSim 作为后处理检测幻觉——两者可串联

启发与关联

  • 全局-局部互补思路可迁移到其他检测任务(如 OOD 检测、事实核查)
  • 可与 Causal-LLaVA 结合:先用 Causal-LLaVA 减少幻觉产生,再用 GLSim 检测残留幻觉
  • 局部相似度信号可用于引导 VLM 的视觉注意力——"注意力不在的地方更可能是幻觉"

评分

  • 新颖性: ⭐⭐⭐⭐ 全局-局部融合对幻觉检测来说是自然但之前未被充分探索的思路
  • 实验充分度: ⭐⭐⭐⭐ 全面的基准比较和消融
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述简洁
  • 价值: ⭐⭐⭐⭐ 无训练即插即用,实用性强