BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-Language Models¶

会议: ECCV2024
arXiv: 2407.13442
代码: https://beafbench.github.io/
领域: multimodal_vlm
关键词: 幻觉评估, VLM benchmark, 场景编辑, 变化感知指标, 视觉问答

一句话总结¶

提出 BEAF 幻觉评估基准，通过图像编辑（移除物体）构造"前后对比"场景，设计 TU/IG/SB/ID 四个变化感知指标，揭示现有 VLM 即使传统 accuracy 高也可能存在严重幻觉。

研究背景与动机¶

领域现状：VLM（如 LLaVA, InstructBLIP）在各种视觉任务上表现优异，但容易产生幻觉——输出内容不反映输入图像的真实信息
现有痛点：现有幻觉评估基准（POPE, CIEM, AMBER）只在文本轴上操作（构造不同问题），仅用 accuracy/F1 等传统指标评估。这种纯文本轴评估无法判断模型是否真正"看到了"场景内容还是在猜测
核心矛盾：如果两个物体总是共同出现，模型可能通过统计先验而非视觉理解来回答。传统基准无法区分真正理解和统计猜测
本文要解决什么：同时操纵视觉轴（编辑图像）和文本轴（构造问题），观察模型回答的变化，从而更精准地评估幻觉
切入角度：如果从图像中移除一个苹果，模型对"图中有苹果吗？"的回答应该从 Yes 变为 No——能否正确感知这种变化才是"真正理解"的标志
核心idea：构造 before-after 图像对 + 设计变化感知指标，将幻觉评估从单一快照提升到动态变化追踪

方法详解¶

整体框架¶

BEAF 包含两部分：(1) 一个通过图像编辑构造的 before-after 数据集（500 原图 + 1727 编辑图 = 26K 图像-问题对）；(2) 四个变化感知指标 TU/IG/SB/ID。评估时对同一问题分别在原图和编辑图上询问 VLM，根据两次回答的正确性组合来计算指标。

关键设计¶

三阶段图像编辑 Pipeline：
做什么：从原始图像中移除特定物体，生成高质量的编辑图像
核心思路：Stage 1 用 SAM 提取 mask + LaMa 进行自动 inpainting；Stage 2 人工筛选过滤阴影残留、伪影等低质量结果；Stage 3 人工精细修复，确保编辑图像自然真实
设计动机：直接用 COCO 的 polygon mask 质量太差，SAM 的 mask 更精确；选 LaMa 而非扩散模型因为专门的 inpainting 模型在物体移除上效果更好
四个变化感知指标：
True Understanding (TU)：模型在原图和编辑图上都回答正确的比例。衡量模型是否真正理解场景变化
IGnorance (IG)：模型在两种图上都回答错误的比例。衡量模型对特定场景信息的无知程度
StuBbornness (SB)：模型在图像变化后仍给出相同（但错误的）回答的比例，分为 \(SB_p\)（总答 Yes）和 \(SB_n\)（总答 No）。揭示模型的回答偏向性
InDecision (ID)：对于与被移除物体无关的问题，模型在编辑前后回答发生变化的比例。揭示模型回答的不稳定性
四者满足 \(SB = 100 - TU - IG\)，并用 TU 和 1-ID 的调和平均定义 F1 分数
数据集构造：
做什么：基于 MS-COCO 验证集构造图像-问题对
500 张原图采样自 COCO 验证集，与 POPE 共享相同 split；每张原图平均生成 3.45 张编辑图；问题格式为 "Is there {object} in this image?"
总计 2227 张图像、26118 个图像-问题对，Yes/No 比例约 32%/68%

损失函数 / 训练策略¶

BEAF 是评估基准，不涉及模型训练。所有评估采用零样本推理。

实验关键数据¶

主实验¶

模型	参数量	TU↑	IG↓	SB↓	ID↓	F1↑
LLaVA-1.5	13B	55.6	4.1	40.3	14.9	64.4
InstructBLIP	13B	37.1	2.3	60.6	7.9	49.2
Shikra	7B	59.1	3.1	37.8	17.0	65.3
mPLUG-Owl	7B	35.9	8.1	56.0	9.8	47.7

消融实验¶

对比维度	发现
POPE accuracy vs BEAF TU	POPE 上高 accuracy 的模型在 BEAF 上 TU 可能很低
SBp vs SBn	InstructBLIP 有极高的 SBp（倾向总答 Yes），LLaVA 的 SB 更均衡
传统 accuracy vs 变化感知指标	BEAF 传统 accuracy 与 POPE 一致，但 TU 揭示了不同的幻觉侧面

关键发现¶

InstructBLIP 在传统 accuracy 上不差，但 SBp 极高（60.6%），说明它不管图像怎么变都倾向回答 Yes
Shikra 的 TU 最高（59.1%），可能因为其位置感知训练策略有助于存在性判断
所有模型的 TU 都不超过 60%，说明当前 VLM 对场景变化的感知能力严重不足
即使是被 POPE 认为"非幻觉"的回答，在 BEAF 的变化视角下也可能是幻觉

亮点与洞察¶

视觉轴+文本轴双轴评估：通过同时操纵图像和问题，构造了一个传统评估无法替代的评估维度。特别是 Stubbornness 指标揭示了模型的回答惰性
图像编辑的巧妙应用：把图像编辑技术（LaMa + SAM）用于评估而非生成任务，构造了清晰的"因果变量控制"实验
从快照评估到动态评估：传统基准是静态的，BEAF 引入了"变化追踪"的评估范式，可以迁移到其他视觉理解任务的评估

局限性 / 可改进方向¶

只用了 "Is there {object}?" 这一种问题格式，覆盖面有限
物体移除可能引入微妙的视觉线索（如背景不自然），可能影响评估的公平性
数据集规模较小（500 原图），统计可靠性有待提升
只评估了 4 个模型，缺少对更新的 VLM（如 GPT-4V）的评估
未考虑物体间的遮挡和语义依赖关系对幻觉的影响

评分¶

新颖性: ⭐⭐⭐⭐ 视觉轴+文本轴双轴评估是新颖的思路，变化感知指标设计巧妙
实验充分度: ⭐⭐⭐ 评估模型数量较少，数据集规模偏小
写作质量: ⭐⭐⭐⭐ 动机清晰，指标定义严谨
价值: ⭐⭐⭐⭐ 揭示了现有评估的盲区，对 VLM 幻觉研究有重要参考价值