跳转至

BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-Language Models

会议: ECCV2024
arXiv: 2407.13442
代码: https://beafbench.github.io/
领域: multimodal_vlm
关键词: 幻觉评估, VLM benchmark, 场景编辑, 变化感知指标, 视觉问答

一句话总结

提出 BEAF 幻觉评估基准,通过图像编辑(移除物体)构造"前后对比"场景,设计 TU/IG/SB/ID 四个变化感知指标,揭示现有 VLM 即使传统 accuracy 高也可能存在严重幻觉。

研究背景与动机

  1. 领域现状:VLM(如 LLaVA, InstructBLIP)在各种视觉任务上表现优异,但容易产生幻觉——输出内容不反映输入图像的真实信息
  2. 现有痛点:现有幻觉评估基准(POPE, CIEM, AMBER)只在文本轴上操作(构造不同问题),仅用 accuracy/F1 等传统指标评估。这种纯文本轴评估无法判断模型是否真正"看到了"场景内容还是在猜测
  3. 核心矛盾:如果两个物体总是共同出现,模型可能通过统计先验而非视觉理解来回答。传统基准无法区分真正理解和统计猜测
  4. 本文要解决什么:同时操纵视觉轴(编辑图像)和文本轴(构造问题),观察模型回答的变化,从而更精准地评估幻觉
  5. 切入角度:如果从图像中移除一个苹果,模型对"图中有苹果吗?"的回答应该从 Yes 变为 No——能否正确感知这种变化才是"真正理解"的标志
  6. 核心idea:构造 before-after 图像对 + 设计变化感知指标,将幻觉评估从单一快照提升到动态变化追踪

方法详解

整体框架

BEAF 包含两部分:(1) 一个通过图像编辑构造的 before-after 数据集(500 原图 + 1727 编辑图 = 26K 图像-问题对);(2) 四个变化感知指标 TU/IG/SB/ID。评估时对同一问题分别在原图和编辑图上询问 VLM,根据两次回答的正确性组合来计算指标。

关键设计

  1. 三阶段图像编辑 Pipeline
  2. 做什么:从原始图像中移除特定物体,生成高质量的编辑图像
  3. 核心思路:Stage 1 用 SAM 提取 mask + LaMa 进行自动 inpainting;Stage 2 人工筛选过滤阴影残留、伪影等低质量结果;Stage 3 人工精细修复,确保编辑图像自然真实
  4. 设计动机:直接用 COCO 的 polygon mask 质量太差,SAM 的 mask 更精确;选 LaMa 而非扩散模型因为专门的 inpainting 模型在物体移除上效果更好

  5. 四个变化感知指标

  6. True Understanding (TU):模型在原图和编辑图上都回答正确的比例。衡量模型是否真正理解场景变化
  7. IGnorance (IG):模型在两种图上都回答错误的比例。衡量模型对特定场景信息的无知程度
  8. StuBbornness (SB):模型在图像变化后仍给出相同(但错误的)回答的比例,分为 \(SB_p\)(总答 Yes)和 \(SB_n\)(总答 No)。揭示模型的回答偏向性
  9. InDecision (ID):对于与被移除物体无关的问题,模型在编辑前后回答发生变化的比例。揭示模型回答的不稳定性
  10. 四者满足 \(SB = 100 - TU - IG\),并用 TU 和 1-ID 的调和平均定义 F1 分数

  11. 数据集构造

  12. 做什么:基于 MS-COCO 验证集构造图像-问题对
  13. 500 张原图采样自 COCO 验证集,与 POPE 共享相同 split;每张原图平均生成 3.45 张编辑图;问题格式为 "Is there {object} in this image?"
  14. 总计 2227 张图像、26118 个图像-问题对,Yes/No 比例约 32%/68%

损失函数 / 训练策略

BEAF 是评估基准,不涉及模型训练。所有评估采用零样本推理。

实验关键数据

主实验

模型 参数量 TU↑ IG↓ SB↓ ID↓ F1↑
LLaVA-1.5 13B 55.6 4.1 40.3 14.9 64.4
InstructBLIP 13B 37.1 2.3 60.6 7.9 49.2
Shikra 7B 59.1 3.1 37.8 17.0 65.3
mPLUG-Owl 7B 35.9 8.1 56.0 9.8 47.7

消融实验

对比维度 发现
POPE accuracy vs BEAF TU POPE 上高 accuracy 的模型在 BEAF 上 TU 可能很低
SBp vs SBn InstructBLIP 有极高的 SBp(倾向总答 Yes),LLaVA 的 SB 更均衡
传统 accuracy vs 变化感知指标 BEAF 传统 accuracy 与 POPE 一致,但 TU 揭示了不同的幻觉侧面

关键发现

  • InstructBLIP 在传统 accuracy 上不差,但 SBp 极高(60.6%),说明它不管图像怎么变都倾向回答 Yes
  • Shikra 的 TU 最高(59.1%),可能因为其位置感知训练策略有助于存在性判断
  • 所有模型的 TU 都不超过 60%,说明当前 VLM 对场景变化的感知能力严重不足
  • 即使是被 POPE 认为"非幻觉"的回答,在 BEAF 的变化视角下也可能是幻觉

亮点与洞察

  • 视觉轴+文本轴双轴评估:通过同时操纵图像和问题,构造了一个传统评估无法替代的评估维度。特别是 Stubbornness 指标揭示了模型的回答惰性
  • 图像编辑的巧妙应用:把图像编辑技术(LaMa + SAM)用于评估而非生成任务,构造了清晰的"因果变量控制"实验
  • 从快照评估到动态评估:传统基准是静态的,BEAF 引入了"变化追踪"的评估范式,可以迁移到其他视觉理解任务的评估

局限性 / 可改进方向

  • 只用了 "Is there {object}?" 这一种问题格式,覆盖面有限
  • 物体移除可能引入微妙的视觉线索(如背景不自然),可能影响评估的公平性
  • 数据集规模较小(500 原图),统计可靠性有待提升
  • 只评估了 4 个模型,缺少对更新的 VLM(如 GPT-4V)的评估
  • 未考虑物体间的遮挡和语义依赖关系对幻觉的影响

相关工作与启发

  • vs POPE:POPE 只在文本轴操作,BEAF 同时操纵视觉轴;POPE 的 accuracy 可能高估模型的理解能力
  • vs AMBER:AMBER 包含开放生成评估但仍是静态评估,BEAF 通过变化追踪更深入
  • vs CHAIR:CHAIR 评估描述中的物体幻觉,BEAF 评估存在性判断的幻觉,两者互补

评分

  • 新颖性: ⭐⭐⭐⭐ 视觉轴+文本轴双轴评估是新颖的思路,变化感知指标设计巧妙
  • 实验充分度: ⭐⭐⭐ 评估模型数量较少,数据集规模偏小
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,指标定义严谨
  • 价值: ⭐⭐⭐⭐ 揭示了现有评估的盲区,对 VLM 幻觉研究有重要参考价值