BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-Language Models¶

会议: ECCV 2024
arXiv: 2407.13442
代码: https://beafbench.github.io/ (有)
领域: 多模态VLM
关键词: 视觉语言模型, 幻觉评估, 场景操纵, 图像编辑, Benchmark

一句话总结¶

BEAF提出"前-后对比"的幻觉评估范式：通过图像编辑移除物体后观察VLM回答的变化，引入TU/IG/SB/ID四个变化感知指标，揭示了传统文本轴评估无法发现的幻觉行为。

研究背景与动机¶

领域现状：VLM（如LLaVA、InstructBLIP等）展现出强大的多模态推理能力，但容易产生幻觉——输出不反映输入图像的真实内容。POPE是主流幻觉评估benchmark，采用判别式问答格式。
现有痛点：(1) 现有benchmark（POPE、CIEM、AMBER）只操纵文本轴（构造不同问题），不操纵视觉轴，无法判断VLM是否真正"看到"了物体还是仅靠语言偏见回答；(2) 某些物体总是共现（如桌子和椅子），仅靠问答评估无法区分VLM是真理解还是利用共现偏置。
核心矛盾：VLM是多模态输入（图像+文本），但现有评估只考虑文本轴变化。如果某物体被移除后VLM仍说"Yes"，说明它根本没看图像，但传统accuracy指标无法捕捉这一信息。
本文要解决什么？ 设计同时考虑视觉和文本双轴变化的评估框架，通过观察VLM对场景变化的感知能力来更精细地分析幻觉。
切入角度：核心假设——如果从图像中移除苹果后问"有苹果吗？"，真正理解场景的模型应从"Yes"变为"No"。通过跟踪答案变化可区分"真理解"与各种幻觉模式。
核心idea一句话：通过图像编辑操纵视觉场景，观察VLM回答的前后变化，引入变化感知指标来细粒度评估幻觉。

方法详解¶

整体框架¶

BEAF benchmark包含两部分：(1) 数据集构建——从MS-COCO选取500张原始图像，通过SAM+LaMa移除物体生成1727张操纵图像，配合26K个图像-问题对；(2) 评估指标——设计4个变化感知指标（TU、IG、SB、ID），从不同维度分析VLM的幻觉行为。

关键设计¶

三阶段图像操纵Pipeline:
- 做什么：从原始图像中精确移除物体生成高质量操纵图像
- 核心思路：Stage 1用SAM提取掩码+LaMa修复模型自动移除目标物体；Stage 2人工过滤低质量结果（阴影残留、修复失败等）；Stage 3人工精细修复——消除幽灵阴影、残影、碎片物体等线索
- 设计动机：如果操纵图像中存在物体移除的痕迹（如阴影），VLM可能通过这些线索猜测物体曾经存在，污染评估。三阶段设计确保操纵图像接近自然图像
四个变化感知评估指标:
- True Understanding (TU)：衡量模型是否真正理解场景——移除前后都答对。\(TU = \frac{|Filter(True, True, True)|}{|Filter(*, *, True)|} \times 100\)
- IGnorance (IG)：衡量模型缺乏认知——移除前后都答错。高IG说明模型对该物体一无所知
- StuBbornness (SB)：衡量模型固执不变——移除后仍给同样答案。分为SBp（固执说Yes）和SBn（固执说No），\(SB = 100 - TU - IG\)
- InDecision (ID)：衡量模型对非相关物体的回答变化——不应变但变了，说明回答是随机的
- 设计动机：传统accuracy无法区分"答对但不理解"和"真正理解"。例如模型移除前后都说"Yes"，传统评估认为移除前答对，但BEAF通过SBp指标揭示这是固执而非理解
双轴分析框架:
- 做什么：结合视觉轴（场景变化）和文本轴（问题变化）进行全面分析
- 核心思路：对每个(原始图像, 操纵图像, 问题)三元组，记录模型在两个图像上的回答，结合问题是否与被移除物体相关（标志R），计算四个指标
- 设计动机：单独的文本轴评估可能高估模型能力——某些"正确"回答实际上是基于共现偏置而非视觉理解

损失函数 / 训练策略¶

纯评估工作，无训练过程。

实验关键数据¶

主实验¶

模型	参数量	TU↑	IG↓	SB↓	ID↓	F1↑
LLaVA	13B	56.4	8.3	35.3	11.2	67.1
InstructBLIP	13B	42.1	3.5	54.4	8.7	56.8
Shikra	7B	58.2	7.1	34.7	10.5	68.9
mPLUG-Owl	7B	45.3	12.4	42.3	14.1	56.0

消融实验（传统评估 vs BEAF评估对比）¶

模型	POPE Accuracy	BEAF TU	差异分析
InstructBLIP	~85%	42.1%	POPE高估了理解能力
LLaVA	~83%	56.4%	差距更小说明LLaVA更依赖视觉

关键发现¶

InstructBLIP的高SBp暴露严重问题：该模型倾向于不管场景如何变化都回答"Yes"，传统accuracy无法发现这一偏好
Shikra的位置感知训练有助于减少幻觉：其TU最高，可能因为位置感知策略帮助了物体存在性判断
传统评估中的"正确答案"可能是幻觉：BEAF揭示了不少原本被认为"non-hallucination"的回答实际是SB（固执重复同一答案）
物体共现关系影响幻觉模式：移除一个物体后，与之常共现的其他物体的ID值显著升高

亮点与洞察¶

评估范式创新：从"静态问答"转向"动态变化感知"，这是VLM评估的重要范式转变。通过操纵视觉输入观察行为变化，类似心理学中的对照实验设计
四指标体系精确刻画幻觉类型：TU/IG/SB/ID分别对应"真理解/无知/固执/犹豫"，提供了比accuracy更细粒度的诊断工具
揭示了VLM的"鸵鸟策略"：许多VLM在面对不确定时不是随机猜测，而是固执地重复某个偏好答案（通常是Yes），这在SBp指标中清晰体现

局限性 / 可改进方向¶

数据集规模较小（500张原始图像），可能无法覆盖所有场景类型
图像编辑质量虽经人工检查，但仍可能存在不完美的修复痕迹
目前只评估判别式问答（Yes/No），未覆盖生成式描述的幻觉
只测了4个VLM，需要扩展到GPT-4V等更新模型
物体移除可能改变场景的整体语义（如移除人后场景语义大变），影响非相关物体的ID度量

评分¶

新颖性: ⭐⭐⭐⭐⭐ 视觉轴操纵+变化感知指标，评估范式有突破性
实验充分度: ⭐⭐⭐⭐ 指标设计严谨，多模型对比分析深入
写作质量: ⭐⭐⭐⭐ 概念解释清晰，示例直观
价值: ⭐⭐⭐⭐⭐ 对VLM幻觉评估领域有重要推动