跳转至

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

会议: ICLR 2026
arXiv: 2506.03135
代码: 项目页面
领域: 多模态VLM/基准测试
关键词: 空间推理, VLM基准, 认知心理学, 动态推理, 透视转换

一句话总结

基于认知心理学构建OmniSpatial——首个全面空间推理基准,系统覆盖动态推理、复杂空间逻辑、空间交互和透视转换4大维度50个子类别共8.4K人工标注QA对,让o3最强推理模型仅达56.33%而人类达92.63%→揭示复杂空间推理仍是VLM的核心瓶颈。

研究背景与动机

领域现状:空间推理是VLM的核心能力。现有基准(SpatialBot-Bench、EmbSpatial等)集中于基础空间关系——辨别左右、估计远近、物体计数。最新推理模型(o3、Gemini-2.5-Pro)已在这些基准上达到>90%准确率→基础空间理解接近饱和。

现有痛点: - 基础空间关系(左/右/前/后/计数)≠复杂空间推理(旋转/变形/路径规划/视角变换)→现有基准低估了真实能力差距 - 现有基准多采用模板自动标注→数据多样性和挑战性不足,问题表述刻板(如"A在B的左边吗?") - 缺乏认知心理学理论支撑的系统化分类→各基准任务设计零散、覆盖面有限

核心矛盾:VLM在现有基准上的"高分"掩盖了其在真实场景复杂空间推理上的根本性不足——人类在紧急情况下理解AED位置不仅需要辨别"在门右边",还需要读懂示意图、关联地图与实景、规划路线。

本文目标:构建一个"不可饱和"的综合性空间推理基准,覆盖从基础到高阶的完整空间认知能力谱。

切入角度:从认知心理学的空间认知理论出发(Chabris 2006; Meneghetti 2022),将复杂空间推理分为4个互补维度→以此为框架设计50个子类别→确保理论完备性。

核心 idea:用认知心理学的空间认知理论重新定义"空间推理"评测的完整边界。

方法详解

整体框架:4维度×50子类别的分类体系

将视觉-空间推理形式化为映射 \(f:(\mathbf{I}_{1:T}, q) \longrightarrow a\),其中 \(\mathbf{I}_{1:T}\) 是RGB观测流,\(q\) 是任务查询,\(a\) 属于可验证的答案/动作空间。排除非视觉先验以确保改进可归因于视觉推理本身。

分类体系基于两个支柱:(i) 认知心理学基础——空间认知的独立官能(可视化、心理旋转、透视转换、空间更新);(ii) 超越基础关系——现有基准已饱和的任务不再有区分度。

关键设计1:四大认知维度的全面覆盖

维度 子类别数 核心认知能力 典型任务示例
动态推理 11 从视觉证据推断运动和时间变化 运动轨迹预测、物理仿真、交通情境分析
复杂空间逻辑 15 关系/变换/几何结构的高阶推理 3D结构推理、心理折叠/展开、空间兼容性判断
空间交互 12 环境约束下的任务导向推理 路径规划、障碍避免、上下文感知动作选择
透视转换 12 采纳替代视角的能力 心理旋转、镜像理解、多智能体视角协调

设计动机:四维度分别对应不同的认知官能——动态推理强调运动推断、复杂逻辑捕获抽象变换、空间交互关注实时环境参与、透视转换反映认知灵活性。组合覆盖了从机器人操作到自动驾驶的完整应用场景。

关键设计2:多源数据与严格人工标注

数据来自四大来源:(1) 网络图片——涵盖多国多场景多天气条件,使用特定搜索词(-ai, -generated)排除合成内容;(2) 认知测试题——公共空间认知测试,侧重纯空间推理;(3) 驾驶考试题——至少3个国家的驾照考试场景,附带U.S.驾驶测试视频的帧提取+标注;(4) 已有数据集——MME(含深度信息)和HOI4D(人-物交互视频帧序列)。

标注采用会话式自然表述(如"如果你正在进教室,学生在你的哪一侧?")而非模板("A在B左边吗?"),6名标注者经交叉验证,Krippendorff's \(\alpha = 0.84\)→一致性高。最终1.5K测试集(纯人工标注)+6.9K训练集。

关键设计3:PointGraph与SpatialCoT增强策略

PointGraph:利用开放词汇 grounding 模型(Florence-2)定位多个物体并提取中心点和边界框,组装为JSON格式的场景图→为VLM提供显式几何线索辅助推理。

SpatialCoT:受人类心理意象能力启发,用InstantMesh为每张输入图像生成6个新视角,组合为多视角拼图→与问题一起输入VLM→链式思考。为模型提供强几何先验,帮助消除遮挡和视角相关的推理歧义。

实验关键数据

主实验:OmniSpatial-test上代表性模型表现(%)

模型 平均 操作 运动分析 交通 定位 地理 策略 模式识别 几何推理 自我中心 他者中心
Random 24.98 - 24.86 26.30 25.88 23.43 27.27 21.44 24.77 22.55 24.84
GPT-4o 47.81 65.54 57.23 56.47 52.38 54.09 26.29 25.48 75.98 39.49 39.76
o3 56.33 71.89 66.18 61.18 68.57 65.45 40.21 29.68 77.06 48.40 48.19
Gemini-2.5-Pro 55.19 67.57 71.39 62.35 75.24 64.55 43.30 34.84 74.51 38.03 37.35
InternVL3-78B 49.33 63.78 63.12 56.24 59.24 51.45 27.63 30.19 74.51 38.46 35.90
SoFar-3B 45.14 56.49 51.16 54.12 53.14 52.73 31.75 22.88 71.60 36.56 41.69
人类 92.63 94.62 96.07 91.38 95.11 92.15 89.02 85.90 98.53 94.30 90.26

现有基准 vs OmniSpatial 的饱和度对比

模型 SpatialBot-Bench EmbSpatial OmniSpatial
o3 >90% >90% 56.33%
Gemini-2.5-Pro >90% >90% 55.19%
人类 ~95% ~95% 92.63%

关键发现

  • 最强推理模型o3(56.33%)vs 人类(92.63%)→差距达36个百分点→复杂空间推理远未解决
  • 策略(Strategy, ~40%)和模式识别(Pattern Recognition, ~30%)是最难维度→即使o3也仅半数正确
  • 透视转换(自我中心/他者中心,~48%/~48%)难度显著→VLM缺乏内在3D表示和心理旋转能力
  • 专用空间模型(SpatialBot、RoboPoint)在OmniSpatial上并无优势(35-40%)→"专用"训练集太简单
  • PointGraph和SpatialCoT可改善部分维度但提升有限→基础空间认知能力缺失是根源

亮点与洞察

  • "饱和的警示":清晰展示现有基准已被最新模型"解决"→社区需要更难的评估标杆。OmniSpatial将评测从"Pattern Matching"提升到"Cognitive Reasoning"
  • 认知心理学的理论锚点:不是随意添加难题,而是从空间认知理论出发→系统性和完备性有理论保证
  • 50个子类别的诊断价值:不同子任务难度差异极大(几何推理~75% vs 模式识别~30%)→为模型改进提供精确方向
  • 人类92.63%的性能上界:即使人类也并非100%→有些题目(如模式识别85.90%)对人类也有挑战性→说明题目设计有深度

局限与展望

  • 主要基于静态图片/少量视频帧→动态空间推理可进一步扩展到连续视频
  • 所有3D推理任务仍是在2D图片上进行→真正的3D交互环境(VR/模拟器)未涉及
  • 人工标注质量高但扩展成本大→需要探索半自动标注方案以持续扩充数据
  • PointGraph和SpatialCoT作为增强策略效果有限→更根本的改进可能需要在模型架构层面引入3D空间先验

相关工作与启发

  • vs SpatialBot-Bench/EmbSpatial:仅6-8类基础空间关系+模板标注→OmniSpatial 50类+人工标注→维度和难度全面升级
  • vs VSI-Bench (Yang et al., 2024):8类室内场景+模板标注288样本→OmniSpatial覆盖室内外多国场景6.5K图
  • vs RoboSpatial (Song et al., 2024):模板自动标注百万级→规模大但多样性和难度受限
  • 启发:可否将OmniSpatial与具身AI结合→在模拟器中让模型执行空间推理后的动作→从"回答问题"到"执行任务"?

评分

⭐⭐⭐⭐⭐ (5/5)

综合评价:首个基于认知心理学理论的全面空间推理基准,50类×8.4K题的精心人工标注,o3仅56%/人类93%的巨大差距证明了基准的区分度和价值——为VLM空间认知能力评估设定了新标杆。

相关论文