GLSim: Detecting Object Hallucinations in LVLMs via Global-Local Similarity¶

会议: NeurIPS 2025
arXiv: 2508.19972
代码: 未提及
领域: 多模态VLM
关键词: object hallucination, hallucination detection, global-local similarity, vision-language model, training-free

一句话总结¶

提出 GLSim，一种无训练的物体幻觉检测框架，结合图像-文本间的全局和局部嵌入相似度信号来判断 LVLM 生成的物体是否为幻觉，显著超越仅使用全局或局部信号的方法。

背景与动机¶

LVLM 的物体幻觉（生成图像中不存在的物体）是安全部署的重要挑战。现有幻觉检测方法通常只采用单一视角： - 全局方法：计算整张图像与物体名称的全局语义相似度，但忽略物体在图像中的局部定位 - 局部方法：关注图像的局部区域（如检测到的物体区域）与描述的匹配，但缺乏全局上下文

单一视角各有盲区——全局方法可能因图像整体语义与物体相关而漏检；局部方法可能因裁剪区域不准确而误检。

核心问题¶

如何同时利用全局和局部的图文相似度信号，更准确可靠地检测 LVLM 的物体幻觉？

方法详解¶

关键设计¶

全局相似度: 计算整张图像与待验证物体名称在 CLIP/SigLIP 等对齐模型中的嵌入余弦相似度。高相似度表明物体可能存在于图像中。
局部相似度: 利用视觉grounding或注意力机制定位物体可能出现的区域，计算局部裁剪区域与物体名称的嵌入相似度。局部高相似度提供更精确的定位证据。
全局-局部融合: 将两种相似度分数组合为统一的幻觉检测分数。两种信号互补——全局信号提供场景级别的合理性判断，局部信号提供实例级别的存在性验证。
无训练框架: 不需要额外训练或微调，直接利用预训练的视觉-语言对齐模型进行推理时检测。

训练策略¶

完全无训练。利用现成的 CLIP/SigLIP 等预训练模型的嵌入空间。

实验关键数据¶

在全面的物体幻觉检测基准上，GLSim 显著超越现有的全局或局部单一方法，证明了互补信号的价值。

消融实验要点¶

仅全局 vs 仅局部 vs 全局+局部：组合显著优于任一单独方法
不同视觉-语言对齐模型的效果对比
在不同 LVLM（LLaVA、InstructBLIP 等）生成的输出上的泛化性

亮点¶

全局-局部互补的思路简洁直觉且有效
无训练——即插即用于任何 LVLM 的后处理
全面的基准测试——系统性比较了现有幻觉检测方法
与 Causal-LLaVA（同系列笔记）互补：Causal-LLaVA 从训练端减少幻觉，GLSim 从推理端检测幻觉

局限性 / 可改进方向¶

依赖 CLIP 等外部模型的质量——CLIP 本身有 bag-of-words 问题
局部定位的准确性受 grounding 方法限制
仅处理物体级幻觉，不处理属性/关系级幻觉
全局-局部的融合权重可能需要任务特定调优

与相关工作的对比¶

vs POPE (基准): POPE 评估幻觉，GLSim 检测幻觉——是检测方法而非评估基准
vs Woodpecker: Woodpecker 用外部专家模型纠正幻觉；GLSim 仅做检测，更轻量
vs Causal-LLaVA（同系列笔记）: Causal-LLaVA 从因果角度减少幻觉生成；GLSim 作为后处理检测幻觉——两者可串联

启发与关联¶

全局-局部互补思路可迁移到其他检测任务（如 OOD 检测、事实核查）
可与 Causal-LLaVA 结合：先用 Causal-LLaVA 减少幻觉产生，再用 GLSim 检测残留幻觉
局部相似度信号可用于引导 VLM 的视觉注意力——"注意力不在的地方更可能是幻觉"

评分¶

新颖性: ⭐⭐⭐⭐ 全局-局部融合对幻觉检测来说是自然但之前未被充分探索的思路
实验充分度: ⭐⭐⭐⭐ 全面的基准比较和消融
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述简洁
价值: ⭐⭐⭐⭐ 无训练即插即用，实用性强