Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models¶

会议: CVPR 2026
arXiv: 2505.03821
代码: 无
领域: 多模态VLM
关键词: 视觉透视能力, 心智理论, 空间推理, VLM评估, 认知科学

一句话总结¶

通过心理学启发的受控LEGO场景构建Isle-Brick-V2基准，系统揭示当前VLM在视觉透视能力(VPT)上的显著不足——即使场景理解近乎完美，空间推理和透视能力仍大幅退化，且存在顽固的方向偏置。

领域现状：VLM（GPT-4o、Gemini、Claude等）在物体识别、计数等视觉任务上表现强劲，多个模型声称具备空间理解能力。3D-PC等基准已开始评估VLM的透视能力，但多使用自然场景，难以控制变量。

现有痛点：现有VLM评估主要关注"识别"层面（能看到什么），缺乏对"推理"层面（从他人角度如何看）的系统评估。自然场景基准受数据污染影响，且无法精准隔离失败因素（是识别问题还是推理问题）。

核心矛盾：VLM在表面层次的物体识别中表现完美，但当需要进行空间推理和透视转换时性能显著下降。这反映了识别与推理之间的深层失配——模型可能依赖语言先验（如默认"朝东"）而非真正的视觉空间推理。

本文目标：系统回答"VLM能否进行视觉透视能力(VPT)"这一问题，并通过层次化诊断隔离失败的具体环节。

切入角度：借鉴心理学中VPT的两个层级——Level-1（理解他人能否看到物体）和Level-2（采纳他人视角看物体相对位置），设计最小对比实验，每次只改变一个认知相关因素。

核心 idea：用受控LEGO场景+7个层次化诊断问题，分离场景理解、空间推理和透视能力三个认知层级，揭示VLM的VPT系统性缺陷。

Isle-Brick-V2基准包含144个视觉任务：9种人偶 × 9种物体 × 4种空间位置（左/右/前/后） × 2种人偶朝向 × 2种视角（俯视/平视）。每个任务配7个开放式诊断问题，零样本、零温度评估。

三层诊断问题设计:
- 功能：将VPT分解为三个递进的认知层级
- 核心思路：Q1-Q3测试场景理解（物体计数、人偶计数、共面判断），Q4-Q5测试空间推理（物体相对方位、人偶朝向），Q6-Q7测试视觉透视（Level-1可见性判断、Level-2自我中心定位）
- 设计动机：Q6和Q7可以看作Q4和Q5答案的逻辑组合（如Q6: 物体在同方向 = 人偶能看到），这种设计能精确定位失败环节
最小化对比法 (Minimal-Contrast Methodology):
- 功能：控制变量，每次只改变一个认知因素
- 核心思路：类似心理学的点透视范式和COMPS概念最小对，所有刺激共享相同场景但在单一因素（如人偶朝向）上变化
- 设计动机：使用LEGO元素实现精确的场景控制，避免自然图像中的干扰因素和数据污染风险
开放式问答评估 (Open-Ended Format):
- 功能：避免多选题的猜测偏见和位置偏差
- 核心思路：所有问题开放作答，使用averaged prediction correctness评估——计算模型答案中正确组分的比例（如预测northeast，正确答案north，则正确率0.5）
- 设计动机：匹配真实用户交互模式，避免手工设计的model-specific prompt策略

本文是评估基准，不涉及模型训练。所有模型以零样本、温度0、最大128 token方式评估，每个问题独立评估并清除上下文。

注：多数开源模型在VPT任务上仅略超随机基线（+4.75pp），而GPT-4o显著领先（+32.15pp）。

场景理解≠空间推理≠透视能力：三个层级之间存在明显的performance drop，GPT-4o从100%降到73%，开源模型降到接近随机
方向偏置极其顽固：GPT-4-Turbo始终偏好East方向，无论移除物体、放大、添加方向标记还是使用真人照片都无法消除，说明偏置来自模型的语言先验而非视觉感知
提供正确朝向仍不能解决VPT：给模型提供Q5的金标答案（人偶朝向）后，Q6（VPT）只有微小改善，说明VPT的困难不仅仅是方向判断错误

认知科学方法论迁移：将心理学的Level-1/Level-2 VPT框架和最小对比法引入VLM评估，这种跨学科方法论非常有启发性。类似的诊断设计可以迁移到其他认知能力的评估（如因果推理、反事实推理）
方向偏置的发现：揭示了VLM可能依赖语言先验（"面朝东"）而非真正的视觉空间推理，这对VLM的可信度和安全性有深远影响——在自动驾驶等需要空间推理的应用中可能导致系统性错误
下界论证：受控LEGO场景代表了VPT的"最简单"版本（完美光照、无遮挡、物体分离），VLM在此条件下仍然失败，说明问题是根本性的