BLINK: Multimodal Large Language Models Can See but Not Perceive¶

会议: ECCV 2024
arXiv: 2404.12390
代码: GitHub
领域: 多模态VLM
关键词: 多模态评测基准, 视觉感知, 经典CV任务, 视觉提示, 感知vs识别

一句话总结¶

提出BLINK——一个包含14个经典计算机视觉感知任务的多模态评测基准（3807道选择题），这些任务人类可以"眨眼间"解决（95.7%准确率），但最强的GPT-4V仅达51.26%（仅高于随机猜测13.17%），揭示了当前MLLM在核心视觉感知能力上的严重缺失。

研究背景与动机¶

领域现状：多模态LLMs在VQA、图像描述、视觉推理等高层任务上取得了令人瞩目的进展。现有评测基准如MMBench、MMMU等主要关注基于识别的视觉问答能力。
现有痛点：现有基准主要测试的是"看到什么"（识别），而非"感知什么"（深层视觉理解）。作者发现，很多现有基准的问题可以通过将图像转化为密集文字描述（dense caption）后，仅用纯文本LLM就能解决——这说明这些基准并未真正测试视觉感知能力。
核心矛盾：经典计算机视觉中有大量核心感知任务（如深度估计、视觉对应、多视图推理），人类能直觉性地瞬间完成，但这些能力难以通过自然语言来"中介"。这些感知能力是否已经在MLLM中"涌现"了？
本文要解决的问题：系统性地评估MLLM在核心视觉感知任务上的能力，揭示其与人类视觉感知之间的巨大鸿沟。
切入角度：将14个经典CV任务重新格式化为多选题形式，配合单/多图输入和视觉提示（如圆圈、框线），构建一个人类轻松解决但MLLM困难重重的基准。
核心idea："能看到"（see）不等于"能感知"（perceive）——MLLM拥有识别物体的能力，但缺乏深层次的视觉感知能力，如深度理解、空间对应、拼图推理等。

方法详解¶

整体框架¶

14个经典CV任务 → 精心设计的多选题格式化（单/多图 + 视觉提示） → 3807道测试题目 → 零样本评估各MLLM → 对比人类/专家模型/随机基线

关键设计¶

14个感知任务体系:
做什么：覆盖经典CV中核心但被MLLM基准忽略的感知任务
核心任务列表：
- 相对深度估计（Relative Depth）：判断两个标记点哪个更近/更远
- 拼图推理（Jigsaw Puzzle）：将碎片还原到正确位置
- 多视图推理（Multi-view Reasoning）：判断多个视角间的空间关系
- 视觉对应（Visual Correspondence）：在不同图像中找到对应点
- 语义对应（Semantic Correspondence）：跨物体实例的语义对应
- 功能对应（Functional Correspondence）：功能性相似部分的对应
- 篡改检测（Forensics Detection）：识别图像是否被篡改
- IQ测试（Visual IQ Test）：视觉模式推理
- 视觉相似度（Visual Similarity）：判断目标与哪个参考更相似
- 相对反射率（Relative Reflectance）：判断材质表面的反射属性
- 物体定位（Object Localization）：在场景中定位目标物体
- 计数（Counting）：计算特定目标数量
- 艺术风格（Art Style）：识别艺术作品的流派
- 空间关系（Spatial Relation）：理解物体间的空间布局
设计动机：这些任务需要真正的视觉感知能力，无法通过文字描述来替代
视觉提示（Visual Prompting）设计:
做什么：在图像上叠加视觉标记（圆圈、框线、遮罩等）来指示考察位置
核心思路：不同于纯文字问题，BLINK大量使用视觉提示来指代具体位置或区域，使得问题必须通过"看图"来理解
设计动机：视觉提示是BLINK区别于其他基准的关键特征之一。实验发现视觉提示的颜色和大小会显著影响MLLM表现（红色优于灰色，10px圆圈最优），说明MLLM对视觉提示的解读能力有限
Dense Caption对比实验:
做什么：检验"将图像转为详细文字描述+纯文LLM"是否能解决BLINK
核心思路：用GPT-4V为每张图像生成任务无关的详细描述，然后用纯文本LLM作答
关键结论：Caption+LLM在MMBench和MMMU上效果不错，但在BLINK上严重失败。这证明BLINK确实需要超越文字描述的视觉感知能力
设计动机：从反面证明BLINK的不可替代性——它测试的是语言无法中介的感知能力

损失函数 / 训练策略¶

BLINK是评测基准，不涉及模型训练。所有评估在零样本设置下进行，使用数据集自带的标准化提示。

实验关键数据¶

主实验（验证集准确率 %）¶

模型	总体均值	深度估计	拼图	多视图	视觉对应	篡改检测	IQ测试	视觉相似	反射率	物体定位
人类	95.67	96.70	93.75	99.19	99.00	95.30	80.77	96.07	98.25	98.00
GPT-4o	60.04	72.59	49.17	74.19	55.33	82.91	40.77	53.96	69.23	59.84
GPT-4V	51.14	78.52	60.83	59.68	70.00	79.49	26.15	28.78	72.73	54.92
Gemini Pro	45.16	52.59	52.50	40.32	57.33	50.43	24.62	26.62	74.83	53.28
LLaVA-v1.6-34B	46.80	48.89	66.67	67.74	54.67	43.59	20.77	23.74	74.83	59.02
随机猜测	38.09	50	25	50	50	50	25	25	50	50

专家模型 vs MLLM对比¶

配置	关键结论	说明
专家CV模型 vs GPT-4V	专家模型超出18%-57%	说明专业视觉能力可学习，MLLM有巨大提升空间
Caption+LLM vs 直接MLLM (BLINK)	Caption+LLM效果差	BLINK需要超越文字的视觉感知
Caption+LLM vs 直接MLLM (MMBench)	Caption+LLM效果好	说明MMBench信息可被文字捕获
红色圆圈 vs 灰色圆圈	红色普遍更好	视觉提示的设计影响显著
10px vs 其他圆圈大小	10px平均最优	最优大小因任务而异

关键发现¶

人机差距惊人：人类95.7% vs GPT-4V 51.3%，差距近45个百分点。GPT-4V仅比随机猜测高13%
某些任务MLLM不如随机猜测：在拼图、语义对应、多视图推理、物体定位、相对反射率等任务上，部分MLLM表现甚至低于随机基线
7B/13B开源模型约等于随机猜测：均值35-42%，与随机猜测(38.09%)无显著差异
"看到"不等于"感知"：MLLM能识别图中有什么物体，但无法理解深度、对应关系、空间布局等更深层的视觉属性
专家模型远优于通用MLLM：在相同任务上超出18-57%，说明这些感知能力原则上可以学习，但当前MLLM训练范式未覆盖
文字描述无法替代视觉感知：Caption+LLM方法在BLINK上失败，但在MMBench/MMMU上成功，证明BLINK确实测试了不同层次的能力

亮点与洞察¶

"See but Not Perceive"的定位极为精准：清晰区分了识别（recognition）和感知（perception），揭示了MLLM真正的短板
14个任务来自经典CV课题：将传统CV研究几十年的核心问题带入MLLM评测，建立了传统CV与大模型时代的桥梁
Dense Caption实验是杀手级论证：从反面证明了几乎所有现有基准都可以用文字描述来"作弊"，而BLINK不行
视觉提示的研究有启发性：颜色、大小等提示属性的影响揭示了MLLM视觉理解的脆弱性
专家模型对比指明了方向：说明感知能力可学，关键问题是数据和训练策略

局限性 / 可改进方向¶

仅使用多选题格式评估，可能未充分反映开放式感知推理能力
14个任务虽覆盖面广，但单个任务的数据量有限（总共3807题）
缺乏对训练数据覆盖度的分析——MLLM差可能只是因为训练数据中缺少此类样本
可以探索如何将这些感知任务纳入MLLM的训练流程以提升能力
视觉提示的最优设计有待进一步自动化搜索
未涉及视频感知、3D场景理解等更复杂的时空感知任务

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将经典CV感知任务引入MLLM评测的角度非常新颖，"See but Not Perceive"的观点深刻
实验充分度: ⭐⭐⭐⭐ 覆盖20+个模型、14个任务，但单任务数据量偏小，专家模型对比仅覆盖部分任务
写作质量: ⭐⭐⭐⭐ 论点清晰有力，Benchmark设计阐述充分，但部分分析可以更深入
价值: ⭐⭐⭐⭐⭐ 揭示了MLLM的核心盲区，对未来MLLM发展方向有重要指导意义，已推动社区关注感知能力训练