BLINK: Multimodal Large Language Models Can See but Not Perceive¶
会议: ECCV 2024
arXiv: 2404.12390
代码: GitHub
领域: 多模态VLM
关键词: 多模态评测基准, 视觉感知, 经典CV任务, 视觉提示, 感知vs识别
一句话总结¶
提出BLINK——一个包含14个经典计算机视觉感知任务的多模态评测基准(3807道选择题),这些任务人类可以"眨眼间"解决(95.7%准确率),但最强的GPT-4V仅达51.26%(仅高于随机猜测13.17%),揭示了当前MLLM在核心视觉感知能力上的严重缺失。
研究背景与动机¶
-
领域现状:多模态LLMs在VQA、图像描述、视觉推理等高层任务上取得了令人瞩目的进展。现有评测基准如MMBench、MMMU等主要关注基于识别的视觉问答能力。
-
现有痛点:现有基准主要测试的是"看到什么"(识别),而非"感知什么"(深层视觉理解)。作者发现,很多现有基准的问题可以通过将图像转化为密集文字描述(dense caption)后,仅用纯文本LLM就能解决——这说明这些基准并未真正测试视觉感知能力。
-
核心矛盾:经典计算机视觉中有大量核心感知任务(如深度估计、视觉对应、多视图推理),人类能直觉性地瞬间完成,但这些能力难以通过自然语言来"中介"。这些感知能力是否已经在MLLM中"涌现"了?
-
本文要解决的问题:系统性地评估MLLM在核心视觉感知任务上的能力,揭示其与人类视觉感知之间的巨大鸿沟。
-
切入角度:将14个经典CV任务重新格式化为多选题形式,配合单/多图输入和视觉提示(如圆圈、框线),构建一个人类轻松解决但MLLM困难重重的基准。
-
核心idea:"能看到"(see)不等于"能感知"(perceive)——MLLM拥有识别物体的能力,但缺乏深层次的视觉感知能力,如深度理解、空间对应、拼图推理等。
方法详解¶
整体框架¶
14个经典CV任务 → 精心设计的多选题格式化(单/多图 + 视觉提示) → 3807道测试题目 → 零样本评估各MLLM → 对比人类/专家模型/随机基线
关键设计¶
- 14个感知任务体系:
- 做什么:覆盖经典CV中核心但被MLLM基准忽略的感知任务
- 核心任务列表:
- 相对深度估计(Relative Depth):判断两个标记点哪个更近/更远
- 拼图推理(Jigsaw Puzzle):将碎片还原到正确位置
- 多视图推理(Multi-view Reasoning):判断多个视角间的空间关系
- 视觉对应(Visual Correspondence):在不同图像中找到对应点
- 语义对应(Semantic Correspondence):跨物体实例的语义对应
- 功能对应(Functional Correspondence):功能性相似部分的对应
- 篡改检测(Forensics Detection):识别图像是否被篡改
- IQ测试(Visual IQ Test):视觉模式推理
- 视觉相似度(Visual Similarity):判断目标与哪个参考更相似
- 相对反射率(Relative Reflectance):判断材质表面的反射属性
- 物体定位(Object Localization):在场景中定位目标物体
- 计数(Counting):计算特定目标数量
- 艺术风格(Art Style):识别艺术作品的流派
- 空间关系(Spatial Relation):理解物体间的空间布局
-
设计动机:这些任务需要真正的视觉感知能力,无法通过文字描述来替代
-
视觉提示(Visual Prompting)设计:
- 做什么:在图像上叠加视觉标记(圆圈、框线、遮罩等)来指示考察位置
- 核心思路:不同于纯文字问题,BLINK大量使用视觉提示来指代具体位置或区域,使得问题必须通过"看图"来理解
-
设计动机:视觉提示是BLINK区别于其他基准的关键特征之一。实验发现视觉提示的颜色和大小会显著影响MLLM表现(红色优于灰色,10px圆圈最优),说明MLLM对视觉提示的解读能力有限
-
Dense Caption对比实验:
- 做什么:检验"将图像转为详细文字描述+纯文LLM"是否能解决BLINK
- 核心思路:用GPT-4V为每张图像生成任务无关的详细描述,然后用纯文本LLM作答
- 关键结论:Caption+LLM在MMBench和MMMU上效果不错,但在BLINK上严重失败。这证明BLINK确实需要超越文字描述的视觉感知能力
- 设计动机:从反面证明BLINK的不可替代性——它测试的是语言无法中介的感知能力
损失函数 / 训练策略¶
BLINK是评测基准,不涉及模型训练。所有评估在零样本设置下进行,使用数据集自带的标准化提示。
实验关键数据¶
主实验(验证集准确率 %)¶
| 模型 | 总体均值 | 深度估计 | 拼图 | 多视图 | 视觉对应 | 篡改检测 | IQ测试 | 视觉相似 | 反射率 | 物体定位 |
|---|---|---|---|---|---|---|---|---|---|---|
| 人类 | 95.67 | 96.70 | 93.75 | 99.19 | 99.00 | 95.30 | 80.77 | 96.07 | 98.25 | 98.00 |
| GPT-4o | 60.04 | 72.59 | 49.17 | 74.19 | 55.33 | 82.91 | 40.77 | 53.96 | 69.23 | 59.84 |
| GPT-4V | 51.14 | 78.52 | 60.83 | 59.68 | 70.00 | 79.49 | 26.15 | 28.78 | 72.73 | 54.92 |
| Gemini Pro | 45.16 | 52.59 | 52.50 | 40.32 | 57.33 | 50.43 | 24.62 | 26.62 | 74.83 | 53.28 |
| LLaVA-v1.6-34B | 46.80 | 48.89 | 66.67 | 67.74 | 54.67 | 43.59 | 20.77 | 23.74 | 74.83 | 59.02 |
| 随机猜测 | 38.09 | 50 | 25 | 50 | 50 | 50 | 25 | 25 | 50 | 50 |
专家模型 vs MLLM对比¶
| 配置 | 关键结论 | 说明 |
|---|---|---|
| 专家CV模型 vs GPT-4V | 专家模型超出18%-57% | 说明专业视觉能力可学习,MLLM有巨大提升空间 |
| Caption+LLM vs 直接MLLM (BLINK) | Caption+LLM效果差 | BLINK需要超越文字的视觉感知 |
| Caption+LLM vs 直接MLLM (MMBench) | Caption+LLM效果好 | 说明MMBench信息可被文字捕获 |
| 红色圆圈 vs 灰色圆圈 | 红色普遍更好 | 视觉提示的设计影响显著 |
| 10px vs 其他圆圈大小 | 10px平均最优 | 最优大小因任务而异 |
关键发现¶
- 人机差距惊人:人类95.7% vs GPT-4V 51.3%,差距近45个百分点。GPT-4V仅比随机猜测高13%
- 某些任务MLLM不如随机猜测:在拼图、语义对应、多视图推理、物体定位、相对反射率等任务上,部分MLLM表现甚至低于随机基线
- 7B/13B开源模型约等于随机猜测:均值35-42%,与随机猜测(38.09%)无显著差异
- "看到"不等于"感知":MLLM能识别图中有什么物体,但无法理解深度、对应关系、空间布局等更深层的视觉属性
- 专家模型远优于通用MLLM:在相同任务上超出18-57%,说明这些感知能力原则上可以学习,但当前MLLM训练范式未覆盖
- 文字描述无法替代视觉感知:Caption+LLM方法在BLINK上失败,但在MMBench/MMMU上成功,证明BLINK确实测试了不同层次的能力
亮点与洞察¶
- "See but Not Perceive"的定位极为精准:清晰区分了识别(recognition)和感知(perception),揭示了MLLM真正的短板
- 14个任务来自经典CV课题:将传统CV研究几十年的核心问题带入MLLM评测,建立了传统CV与大模型时代的桥梁
- Dense Caption实验是杀手级论证:从反面证明了几乎所有现有基准都可以用文字描述来"作弊",而BLINK不行
- 视觉提示的研究有启发性:颜色、大小等提示属性的影响揭示了MLLM视觉理解的脆弱性
- 专家模型对比指明了方向:说明感知能力可学,关键问题是数据和训练策略
局限性 / 可改进方向¶
- 仅使用多选题格式评估,可能未充分反映开放式感知推理能力
- 14个任务虽覆盖面广,但单个任务的数据量有限(总共3807题)
- 缺乏对训练数据覆盖度的分析——MLLM差可能只是因为训练数据中缺少此类样本
- 可以探索如何将这些感知任务纳入MLLM的训练流程以提升能力
- 视觉提示的最优设计有待进一步自动化搜索
- 未涉及视频感知、3D场景理解等更复杂的时空感知任务
相关工作与启发¶
- vs MMBench/MMMU: 这些基准的信息大多可被文字描述捕获,本质上测试的是文本+浅层视觉理解;BLINK测试的是语言无法中介的纯视觉感知
- vs MathVerse: MathVerse揭示MLLM无法"看懂"数学图表;BLINK更广泛地揭示MLLM无法"感知"基础视觉属性(深度、对应、空间关系等)
- vs 传统CV评测: 传统CV评测针对专家模型在单一任务上的性能;BLINK将多个任务统一格式化来测试通用MLLM,形成了独特的交叉评测视角
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将经典CV感知任务引入MLLM评测的角度非常新颖,"See but Not Perceive"的观点深刻
- 实验充分度: ⭐⭐⭐⭐ 覆盖20+个模型、14个任务,但单任务数据量偏小,专家模型对比仅覆盖部分任务
- 写作质量: ⭐⭐⭐⭐ 论点清晰有力,Benchmark设计阐述充分,但部分分析可以更深入
- 价值: ⭐⭐⭐⭐⭐ 揭示了MLLM的核心盲区,对未来MLLM发展方向有重要指导意义,已推动社区关注感知能力训练