跳转至

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

日期: 2026-03-03
arXiv: 2603.06680
代码: https://github.com/neilt93/Paper-with-Davis
领域: 多模态/VLM
关键词: 可见性推理, VLM评估, 视角推理, 弃权机制, 最小编辑测试

一句话总结

VB 提出了一个专门测试 VLM 能否判断照片中什么可见/不可见、并在无法确定时选择弃权的基准,通过 2×2 最小编辑设计(图像翻转×文本翻转)在 100 个家族/300 个评测项上评估 9 个模型,GPT-4o 和 Gemini 3.1 Pro 并列最佳(0.728 综合分)。

研究背景与动机

  1. 领域现状:VLM 越来越多地部署在自动驾驶、辅助技术、医学影像等对视觉判断正确性要求极高的场景。
  2. 现有痛点:现有基准(MME、POPE)测试幻觉和通用感知,但不专门测试"可见性判断"——模型能否区分"可见"和"存在"、能否在证据不充分时弃权。VizWiz、UNK-VQA 测试不可回答问题,但不解释为什么不可回答。
  3. 核心矛盾:模型在证据不足时猜测比弃权更危险,但现有基准不奖励弃权行为,也不测试判断改变是否与证据改变一致。
  4. 切入角度:设计 2×2 最小编辑控制实验——对同一场景做最小的图像编辑和文本编辑,验证模型判断是否"当且仅当"证据变化时才改变。
  5. 核心 idea 一句话:通过最小编辑对照实验测试 VLM 的可见性推理、翻转一致性和弃权能力。

方法详解

整体框架

每个测试项由一张照片+一个 yes/no 可见性声明组成,模型输出三选一:VISIBLY_TRUE、VISIBLY_FALSE 或 ABSTAIN,附带置信度分数和原因代码。

关键设计

  1. 2×2 家族设计

    • 每个家族包含:基准图像 \(I^0\) + 编辑图像 \(I^1\)(物理重拍而非数字编辑),基准问题 \(q^0\) + 翻转问题 \(q^1\)
    • 产生 4 个评测项:BASE\((I^0,q^0)\)、TEXT_FLIP\((I^0,q^1)\)、IMAGE_FLIP\((I^1,q^0)\)、DOUBLE_FLIP\((I^1,q^1)\)
    • 严格 XOR 模式:BASE=FALSE, TEXT_FLIP=TRUE, IMAGE_FLIP=TRUE, DOUBLE_FLIP=FALSE
    • 设计动机:控制变量——文本翻转或图像翻转单独改变标签,两者同时翻转恢复原标签
  2. 8 类可见性因素

    • GAZE_DIRECTION(视线方向)、OCCLUSION(遮挡)、OUT_OF_FRAME(出框)、LIGHTING_DISTANCE(光照/距离)
    • INHERENTLY_NONVISUAL(本质非视觉)、AUGMENTED_VISION_REQUIRED(需要增强视觉)、INSUFFICIENT_CONTEXT(上下文不足)、MULTI_AGENT_SECOND_ORDER(二阶视角推理)
    • 要求模型不仅判断对错,还要说明原因
  3. 评估指标套件

    • CAA:带弃权的置信度感知准确率
    • MEFR:最小编辑翻转率(判断是否随证据变化而改变)
    • SelRank:置信度排序的选择性预测质量
    • ToMAcc:二阶视角推理准确率

实验关键数据

综合评分

模型 Composite CAA MEFR SelRank
GPT-4o 0.728
Gemini 3.1 Pro 0.727
Gemini 2.5 Pro 0.678
Gemma 3 12B 0.505
最佳开源 0.505

关键发现

  • GPT-4o 和 Gemini 3.1 Pro 并列最佳,但在选择性预测上差异巨大——同等准确率下置信度校准差异显著
  • 文本翻转鲁棒性 > 图像翻转鲁棒性(6/9 模型),说明模型对视觉编辑的敏感度不如文本编辑
  • 开源最佳 Gemma 3 12B(0.505)超过了一个早期闭源模型,但与旗舰模型差距仍然很大
  • 二阶视角推理(判断"A 能否看到 B 在看什么")是所有模型的最大弱点

亮点与洞察

  • 物理重拍而非数字编辑保证了图像编辑的真实性和控制性,这种实验设计方法论值得借鉴
  • 弃权作为一等公民——大多数 VLM 基准不测试弃权能力,但安全关键场景中"知道不知道"比"猜对猜错"更重要
  • 原因代码使失败分析可操作化——区分"证据缺失"和"证据被遮挡"对应不同的纠正措施

局限性 / 可改进方向

  • 只有 100 个家族/300 个评测项,规模较小
  • 所有图像都是自拍重拍的受控场景,与真实应用场景(自动驾驶、医学影像)差距大
  • 只测试 yes/no 可见性声明,不涉及开放式推理
  • ABSTAIN 标签的标注一致性难以保证

相关工作与启发

  • vs POPE: POPE 测试物体幻觉("is there a X?"),VB 测试可见性推理("is X visible?"),后者更细粒度
  • vs VizWiz: VizWiz 收集真实用户的不可回答问题,VB 用控制实验测试翻转一致性
  • vs MME: MME 覆盖广泛认知和感知能力,VB 深挖单一但安全关键的技能

评分

  • 新颖性: ⭐⭐⭐⭐ 2×2 最小编辑设计和 8 类原因代码是独特的方法论贡献
  • 实验充分度: ⭐⭐⭐ 9 个模型但数据集规模偏小
  • 写作质量: ⭐⭐⭐⭐ 任务定义严谨,度量设计合理
  • 价值: ⭐⭐⭐⭐ 为 VLM 安全关键部署提供了急需的诊断工具