跳转至

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

会议: ICCV 2025
arXiv: 2412.07825
代码: 项目主页 (有)
领域: 3D视觉 / 多模态VLM
关键词: 3D Spatial Reasoning, Benchmark, Large Multimodal Models, Visual Question Answering, Camera Viewpoint Robustness

一句话总结

提出首个全面的3D空间推理基准3DSRBench,包含2,772个人工标注的VQA对(12种问题类型),通过平衡数据分布和新型FlipEval策略实现鲁棒评估,揭示SOTA LMM(包括GPT-4o、Gemini)在3D空间推理上远落后于人类水平(≈52% vs 95.7%),且在非常规视角下性能显著退化。

背景与动机

  • 3D空间推理是智能体的基础能力:自动导航、机器人操作、AR/VR等下游任务都依赖模型理解物体在3D空间中的位置、朝向和关系
  • 现有空间推理基准的不足
  • 早期数据集(VQA、GQA等)只关注2D空间关系(基于观察者视角的左/右),可以仅从2D bounding box推断
  • 合成数据集(CLEVR等)与自然图像存在巨大领域差异
  • SpatialRGPT等依赖Omni3D的3D标注,限于室内/自动驾驶的刚性物体类别
  • 规则生成的VQA容易产生捷径和偏差
  • LMM的3D意识未被充分研究:虽然GPT-4o等在很多VQA任务上表现出色,但在真正的3D空间推理(需要理解深度、相机外参、物体3D朝向等)上的能力鲜有系统评测

核心问题

  1. 如何构建一个全面、鲁棒的3D空间推理基准,涵盖多种3D推理维度?
  2. 当前SOTA LMM在3D空间推理的各个方面(高度、位置、朝向、多物体推理)表现如何?
  3. LMM的3D空间推理能力对相机视角变化的鲁棒性如何(特别是非常规视角)?

方法详解

整体框架

3DSRBench由三个子集组成: - 3DSRBench-real:2,100个基于MS-COCO自然图像的VQA对(经数据增强后5,250个) - 3DSRBench-synthetic-common:基于HSSD室内场景渲染的常规视角VQA - 3DSRBench-synthetic-uncommon:同一场景的非常规视角VQA 总计672个合成VQA对(增强后1,692个),12种问题类型分为4大类。

关键设计

  1. 12种问题类型,4大类别
  2. 高度(1种):判断哪个物体在3D世界空间中更高(需理解相机俯仰角校正)
  3. 位置(3种):物体距离远近、谁离相机更近、物体是否在另一个正上/下方
  4. 朝向(3种):物体哪一面朝向相机、物体前后关系(物体视角而非观察者视角)、物体左右关系
  5. 多物体推理(5种):涉及3+物体的3D距离比较、朝向关系等,需要多步3D计算

  6. FlipEval策略:对图像水平翻转生成配对VQA。涉及左/右的3D空间关系答案会翻转,消除了模型的左右偏见(如"司机通常坐在左边"),并防止随机猜测。与CircularEval(打乱选项顺序要求全部正确)结合使用。

  7. 平衡数据分布 + 避免捷径:yes/no答案大致平衡,收集互补图像对(同一问题产生相反答案),避免平凡答案(如两个物体距离差异过大时不提问),确保不能仅靠2D信息获得正确答案。

  8. 开放词汇实体:不限于刚性物体类别,覆盖人类、动物、隐含概念(如车上的logo、广告牌上的箭头),更贴近真实世界场景。

评估设计

  • CircularEval:每个问题重复2-4次(不同选项顺序),需全部正确才算对,消除猜测和顺序偏差
  • FlipEval:水平翻转图像生成配对问题,消除左右偏见
  • LLM辅助答案提取:free-form回答用GPT-4提取选项标签

实验关键数据

主要结果(3DSRBench-real)

模型 总体 高度 位置 朝向 多物体
Random 20.9 25.0 25.0 16.8 20.1
Human 95.7 92.9 96.4 97.7 94.9
LLaVA-v1.5-7B 38.1 39.1 46.9 28.7 34.7
InternVL2.5-8B 50.9 45.9 68.1 38.7 43.3
QWen2.5-VL-7B 48.4 44.1 62.7 40.6 40.5
SpatialReasoner 60.3 52.5 75.2 55.2 51.8
Claude-3.5V-Sonnet 48.2 53.5 63.1 31.4 41.3
GPT-4o 44.2 53.2 59.6 21.6 39.0
QWenVLMax 52.0 45.1 70.7 37.7 44.8
Gemini-2.0-Flash-think 51.1 53.0 67.1 35.8 43.6

关键发现:最好的开源模型SpatialReasoner (60.3%)仍落后人类35.4%!朝向和多物体推理是最大瓶颈。

视角鲁棒性(synthetic splits)

模型 常规视角 非常规视角 性能下降
GPT-4o 51.2 44.3 -13.5%
Gemini-1.5-Pro 59.9 49.5 -32.2%
LLaVA-NeXT-8B 45.5 36.8 -19.1%
Cambrian-1-8B 48.1 39.9 -17.0%

消融实验要点

  • 视觉编码器设计:DINOv2作为第二编码器对朝向和多物体推理帮助最大;MAE和SAM对高度问题有显著提升;SVA连接器进一步提升(37.2%→37.8%)
  • 语言模型规模:从0.5B到72B持续提升,但72B+6B视觉编码器的InternVL2.5仍落后人类40%+,说明仅靠scale up不够
  • GPT-4o的失败模式:缺乏显式3D表示(如度量深度),只能依赖视觉线索进行推理,容易出错
  • Gemini thinking的失败模式:能正确分解问题为小步骤,但缺乏显式3D表示导致各步骤执行不可靠

亮点

  • 首个全面的3D空间推理基准:覆盖真实图像+合成图像、12种问题类型、常规+非常规视角
  • FlipEval是聪明的设计:通过水平翻转生成配对VQA,优雅地消除了3D左右偏见,这是之前基准忽略的问题
  • 揭示了LMM的根本局限:SOTA模型在3D空间推理上远不如人类,反映出现有LMM缺乏显式3D表示和真正的3D推理能力
  • 非常规视角分析:对机器人/具身AI场景极其重要,揭示了看似强大的模型在非常规视角下的脆弱性
  • 开放词汇实体:不限于特定物体类别,更全面地评估3D理解能力

局限性 / 可改进方向

  • 仅评估静态图像,未涉及视频中的3D空间推理
  • 问题仍限于二选/四选的VQA格式,未测试开放式3D推理
  • MS-COCO图像主要是人类视角拍摄,非常规视角数据主要依赖合成图像
  • 未提供3D空间推理的训练数据或微调方法,只是诊断基准
  • 12种问题类型虽全面但仍可能遗漏某些3D推理能力(如物理推理、空间规划)

与相关工作的对比

  • vs CLEVR/Super-CLEVR:3DSRBench使用真实自然图像而非合成图像,实体开放词汇而非固定类别
  • vs SpatialRGPT:3DSRBench人工标注而非规则生成VQA,避免捷径和偏差;覆盖更多3D推理维度(朝向、多物体推理)
  • vs CVBench:3DSRBench更聚焦于3D空间推理的全面性,增加了FlipEval和非常规视角评估

启发与关联

  • LMM需要显式3D表示才能可靠地进行3D空间推理——这为"3D-aware LMM"的研究提供了明确方向
  • 非常规视角下的性能退化对具身AI和机器人的安全性有重大启示
  • 3D空间推理可能需要新的训练范式(超越纯scale up),如引入深度估计、3D场景图等中间表示

评分

  • 新颖性: ⭐⭐⭐⭐ FlipEval设计巧妙,问题分类体系全面,非常规视角分析有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖20+模型(开源+闭源),多维度分析(编码器设计、模型规模、视角鲁棒性、失败案例)
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,问题类型说明详细,实验分析深入
  • 价值: ⭐⭐⭐⭐⭐ 填补3D空间推理评估空白,对VLM社区和具身AI研究有重要指导意义