Vision-Language Models Can't See the Obvious¶

会议: ICCV 2025
arXiv: 2507.04741
代码: SalBench
领域: 多模态VLM
关键词: 视觉显著性, LVLM评估, 注意力机制, 低层特征感知, benchmark

一句话总结¶

提出 SalBench 基准测试，发现当前大型视觉-语言模型（LVLM）在检测对人类而言显而易见的视觉显著特征（如颜色、方向、大小差异）上表现极差——最先进的 GPT-4o 在检测任务上仅达到 47.6% 准确率，揭示了 LVLM 与人类视觉注意力之间的根本差距。

研究背景与动机¶

当前 LVLM 在高层语义理解任务（如 VQA、MMMU 等）上表现出色，但一个关键问题被忽视了：

Moravec 悖论：AI 系统在高层推理上表现出色，反而在人类轻松完成的低层感知任务上可能表现不佳。例如，在一组小圆中识别一个明显的大圆，或在一排相同颜色的物体中找出不同颜色的那个

现有 benchmark 的盲区：MMBench、MMMU、MathVista 等都测试高层复杂任务，但没有 benchmark 系统性地评估 LVLM 的低层视觉感知能力（颜色、方向、大小等基本视觉特征）

与人类视觉注意力机制的对齐：人类的视觉搜索依赖于特征整合理论（Feature Integration Theory, FIT），大脑能平行处理在某个特征维度上显著不同的区域。LVLM 是否也具有这种能力？

作者想通过一个简单却精心设计的 benchmark 来量化 LVLM 与人类在底层视觉感知上的差距，从而指明改进方向。

方法详解¶

整体框架¶

SalBench 基于 P3（合成图像）和 O3（自然图像）数据集构建，包含刺激图像中一个显著目标在众多干扰物中脱颖而出的场景。在这些图像上定义了三个任务来评估 LVLM 的感知能力。

关键设计¶

Odd-One-Out Detection（异物检测）

给定一张包含多个相似物体和一个显著不同物体的图像，模型需从预定义的特征类别列表中预测目标在哪个（些）维度上与众不同。合成图像限定为 3 个类别（颜色、形状、方向），自然图像扩展为 7 个类别（方向、颜色、焦点、形状、大小、位置、图案）。

设计动机：直接评估模型"看到"显著目标的能力。实验发现直接提问往往得到错误回答，说明模型确实缺乏这种基本感知能力。

Referring Odd-One-Out（引导式异物识别）

在检测任务基础上，额外提供目标的边界框坐标作为文本提示（如 "(x_min, y_min, x_max, y_max)"）。模型需判断该区域内的物体在哪些特征上与其余物体不同。

设计动机：消除"定位"的难度，纯粹测试模型在已知目标位置后的特征差异识别能力。即使给出位置信息，模型仍然表现不佳。

Visual Referring Odd-One-Out（视觉引导式异物识别）

改用视觉方式（红色边界框）标出目标物体，而非文本坐标。模型需通过视觉注意力聚焦到高亮区域并判断差异。

设计动机：测试模型整合视觉高亮信息的能力，更贴近人类在识别"被标记物体"时的自然交互方式。

损失函数 / 训练策略¶

SalBench 本身是一个评估基准而非训练方法。但作者额外进行了训练实验来验证是否可以通过训练改善性能：

生成了 100 万个合成显著性图像-文本对用于对齐阶段
生成了 100 万条指令微调数据
结合 Cambrian 数据集的 200 万条自然图像数据
使用 LLaVA 训练流程，测试了 4 种模型变体（LLama3.1-8B/Qwen2-7B × CLIP/SigLip）

关键发现：即使在域内显著性数据上训练，性能依然很低（检测 16-19%），说明当前架构和训练方式本身不适合捕捉显著性信息。

实验关键数据¶

主实验¶

SalBench 零样本 F1 分数（检测/引导/视觉引导，自然/合成图像）：

模型	Detection NAT	Detection SYN	Referring NAT	Visual Ref. SYN
GPT-4o	47.6	89.2	47.3	73.5
Claude-sonnet	48.2	86.7	51.1	87.7
Qwen2-VL-72B	41.6	88.8	44.6	74.7
Qwen2-VL-7B	32.5	55.7	32.5	57.4
LLaVA 1.6-7B	24.5	16.3	21.4	16.6
InternVL-2-8B	20.0	58.7	23.0	23.0

所有模型在自然图像上的性能远低于合成图像（差距 30-40%）。

消融实验¶

合成图像按难度级别的准确率（Qwen2-VL-72B / GPT-4o）：

类别	难度	Qwen2-VL-72B Detection	GPT-4o Detection
方向	Easy	98.6	96.2
方向	Hard	95.7	98.6
大小	Easy	94.2	93.3
大小	Hard	46.0	36.8
颜色	Easy	100.0	99.8
颜色	Hard	60.1	66.1

关键发现：方向识别在各难度下都相对鲁棒，但大小和颜色在高难度（差异微小）时急剧下降。

视觉骨干检索测试：

视觉编码器	SYN Top-1	NAT Top-1
SigLip-so400m	55.3	87.9
CLIP-ViT-Large-Patch14	41.2	78.6
Random	24.6	53.2

视觉编码器的特征表示本身就不够判别显著性信息。

关键发现¶

模型规模有影响：Qwen2-VL 从 1.5B→7B→72B，F1 分数明显提升（23.8→54.9→89.9 在合成检测上），但即使最大模型在自然图像上也仅 ~44%
Few-shot 无一致提升：增加 shot 数不一定改善性能，有时反而下降（GPT-4o 从 0-shot 47.6% 降至 3-shot 38.9%）
颜色偏好：所有模型对颜色类别的识别远好于其他特征，因为颜色是 RGB 图像直接提供的信息，而大小、形状需要更高层次编码
干扰物数量影响：随着干扰物增多（<7 到 >25），平均 F1 从 44.5% 下降到 37.4%
训练也无法解决问题：在域内数据上训练后，性能仍然很低，暗示问题可能出在视觉编码器的架构层面

亮点与洞察¶

Moravec 悖论的优秀实证：第一个系统性地展示了 LVLM 在"简单"感知任务上的失败
任务设计巧妙：三个递进式任务（无提示→文本位置→视觉标注）逐步降低定位难度，仍然暴露了模型的感知缺陷
根因分析深入：不仅测试模型整体，还分别测试了 LLM 的 FIT 知识（GPT-4o 97.5% 了解 FIT 理论）和视觉编码器的检索能力，定位出问题根源在视觉表示端
实际意义：对于需要底层视觉判断的应用场景（如工业质检、医疗影像异常检测），这一发现具有警示价值

局限与展望¶

SalBench 主要聚焦在"odd-one-out"这一类显著性任务，未覆盖其他类型的低层感知（如纹理、深度等）
合成图像使用 7×7 网格排列，可能偏离真实世界场景的复杂度
多标签分类的评估指标（exact match 和 F1）可能低估了部分正确的识别
训练实验仅用 LLaVA 框架，未探索其他可能更适合低层特征学习的架构
未提出具体的改进方案或新的视觉编码器设计

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性评估 LVLM 低层感知的 benchmark，发现意义重大
实验充分度: ⭐⭐⭐⭐⭐ 评估了 15+ 个模型，三个任务，多种设置（zero/few-shot），骨干分析，训练实验
写作质量: ⭐⭐⭐⭐ 分析清晰透彻，图表丰富
价值: ⭐⭐⭐⭐⭐ 揭示了 LVLM 的根本盲区，对未来模型设计有重要指导意义