VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images¶

日期: 2026-03-03
arXiv: 2603.06680
代码: https://github.com/neilt93/Paper-with-Davis
领域: 多模态/VLM
关键词: 可见性推理, VLM评估, 视角推理, 弃权机制, 最小编辑测试

一句话总结¶

VB 提出了一个专门测试 VLM 能否判断照片中什么可见/不可见、并在无法确定时选择弃权的基准，通过 2×2 最小编辑设计（图像翻转×文本翻转）在 100 个家族/300 个评测项上评估 9 个模型，GPT-4o 和 Gemini 3.1 Pro 并列最佳（0.728 综合分）。

领域现状：VLM 越来越多地部署在自动驾驶、辅助技术、医学影像等对视觉判断正确性要求极高的场景。
现有痛点：现有基准（MME、POPE）测试幻觉和通用感知，但不专门测试"可见性判断"——模型能否区分"可见"和"存在"、能否在证据不充分时弃权。VizWiz、UNK-VQA 测试不可回答问题，但不解释为什么不可回答。
核心矛盾：模型在证据不足时猜测比弃权更危险，但现有基准不奖励弃权行为，也不测试判断改变是否与证据改变一致。
切入角度：设计 2×2 最小编辑控制实验——对同一场景做最小的图像编辑和文本编辑，验证模型判断是否"当且仅当"证据变化时才改变。
核心 idea 一句话：通过最小编辑对照实验测试 VLM 的可见性推理、翻转一致性和弃权能力。

每个测试项由一张照片+一个 yes/no 可见性声明组成，模型输出三选一：VISIBLY_TRUE、VISIBLY_FALSE 或 ABSTAIN，附带置信度分数和原因代码。

2×2 家族设计：
- 每个家族包含：基准图像 \(I^0\) + 编辑图像 \(I^1\)（物理重拍而非数字编辑），基准问题 \(q^0\) + 翻转问题 \(q^1\)
- 产生 4 个评测项：BASE\((I^0,q^0)\)、TEXT_FLIP\((I^0,q^1)\)、IMAGE_FLIP\((I^1,q^0)\)、DOUBLE_FLIP\((I^1,q^1)\)
- 严格 XOR 模式：BASE=FALSE, TEXT_FLIP=TRUE, IMAGE_FLIP=TRUE, DOUBLE_FLIP=FALSE
- 设计动机：控制变量——文本翻转或图像翻转单独改变标签，两者同时翻转恢复原标签
8 类可见性因素：
- GAZE_DIRECTION（视线方向）、OCCLUSION（遮挡）、OUT_OF_FRAME（出框）、LIGHTING_DISTANCE（光照/距离）
- INHERENTLY_NONVISUAL（本质非视觉）、AUGMENTED_VISION_REQUIRED（需要增强视觉）、INSUFFICIENT_CONTEXT（上下文不足）、MULTI_AGENT_SECOND_ORDER（二阶视角推理）
- 要求模型不仅判断对错，还要说明原因
评估指标套件：
- CAA：带弃权的置信度感知准确率
- MEFR：最小编辑翻转率（判断是否随证据变化而改变）
- SelRank：置信度排序的选择性预测质量
- ToMAcc：二阶视角推理准确率

模型	Composite	CAA	MEFR	SelRank
GPT-4o	0.728	高	高	高
Gemini 3.1 Pro	0.727	高	高	中
Gemini 2.5 Pro	0.678	高	中	高
Gemma 3 12B	0.505	中	中	中
最佳开源	0.505	—	—	—