3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark¶
会议: ICCV 2025
arXiv: 2412.07825
代码: 项目主页 (有)
领域: 3D视觉 / 多模态VLM
关键词: 3D Spatial Reasoning, Benchmark, Large Multimodal Models, Visual Question Answering, Camera Viewpoint Robustness
一句话总结¶
提出首个全面的3D空间推理基准3DSRBench,包含2,772个人工标注的VQA对(12种问题类型),通过平衡数据分布和新型FlipEval策略实现鲁棒评估,揭示SOTA LMM(包括GPT-4o、Gemini)在3D空间推理上远落后于人类水平(≈52% vs 95.7%),且在非常规视角下性能显著退化。
背景与动机¶
- 3D空间推理是智能体的基础能力:自动导航、机器人操作、AR/VR等下游任务都依赖模型理解物体在3D空间中的位置、朝向和关系
- 现有空间推理基准的不足:
- 早期数据集(VQA、GQA等)只关注2D空间关系(基于观察者视角的左/右),可以仅从2D bounding box推断
- 合成数据集(CLEVR等)与自然图像存在巨大领域差异
- SpatialRGPT等依赖Omni3D的3D标注,限于室内/自动驾驶的刚性物体类别
- 规则生成的VQA容易产生捷径和偏差
- LMM的3D意识未被充分研究:虽然GPT-4o等在很多VQA任务上表现出色,但在真正的3D空间推理(需要理解深度、相机外参、物体3D朝向等)上的能力鲜有系统评测
核心问题¶
- 如何构建一个全面、鲁棒的3D空间推理基准,涵盖多种3D推理维度?
- 当前SOTA LMM在3D空间推理的各个方面(高度、位置、朝向、多物体推理)表现如何?
- LMM的3D空间推理能力对相机视角变化的鲁棒性如何(特别是非常规视角)?
方法详解¶
整体框架¶
3DSRBench由三个子集组成: - 3DSRBench-real:2,100个基于MS-COCO自然图像的VQA对(经数据增强后5,250个) - 3DSRBench-synthetic-common:基于HSSD室内场景渲染的常规视角VQA - 3DSRBench-synthetic-uncommon:同一场景的非常规视角VQA 总计672个合成VQA对(增强后1,692个),12种问题类型分为4大类。
关键设计¶
- 12种问题类型,4大类别:
- 高度(1种):判断哪个物体在3D世界空间中更高(需理解相机俯仰角校正)
- 位置(3种):物体距离远近、谁离相机更近、物体是否在另一个正上/下方
- 朝向(3种):物体哪一面朝向相机、物体前后关系(物体视角而非观察者视角)、物体左右关系
-
多物体推理(5种):涉及3+物体的3D距离比较、朝向关系等,需要多步3D计算
-
FlipEval策略:对图像水平翻转生成配对VQA。涉及左/右的3D空间关系答案会翻转,消除了模型的左右偏见(如"司机通常坐在左边"),并防止随机猜测。与CircularEval(打乱选项顺序要求全部正确)结合使用。
-
平衡数据分布 + 避免捷径:yes/no答案大致平衡,收集互补图像对(同一问题产生相反答案),避免平凡答案(如两个物体距离差异过大时不提问),确保不能仅靠2D信息获得正确答案。
-
开放词汇实体:不限于刚性物体类别,覆盖人类、动物、隐含概念(如车上的logo、广告牌上的箭头),更贴近真实世界场景。
评估设计¶
- CircularEval:每个问题重复2-4次(不同选项顺序),需全部正确才算对,消除猜测和顺序偏差
- FlipEval:水平翻转图像生成配对问题,消除左右偏见
- LLM辅助答案提取:free-form回答用GPT-4提取选项标签
实验关键数据¶
主要结果(3DSRBench-real)¶
| 模型 | 总体 | 高度 | 位置 | 朝向 | 多物体 |
|---|---|---|---|---|---|
| Random | 20.9 | 25.0 | 25.0 | 16.8 | 20.1 |
| Human | 95.7 | 92.9 | 96.4 | 97.7 | 94.9 |
| LLaVA-v1.5-7B | 38.1 | 39.1 | 46.9 | 28.7 | 34.7 |
| InternVL2.5-8B | 50.9 | 45.9 | 68.1 | 38.7 | 43.3 |
| QWen2.5-VL-7B | 48.4 | 44.1 | 62.7 | 40.6 | 40.5 |
| SpatialReasoner | 60.3 | 52.5 | 75.2 | 55.2 | 51.8 |
| Claude-3.5V-Sonnet | 48.2 | 53.5 | 63.1 | 31.4 | 41.3 |
| GPT-4o | 44.2 | 53.2 | 59.6 | 21.6 | 39.0 |
| QWenVLMax | 52.0 | 45.1 | 70.7 | 37.7 | 44.8 |
| Gemini-2.0-Flash-think | 51.1 | 53.0 | 67.1 | 35.8 | 43.6 |
关键发现:最好的开源模型SpatialReasoner (60.3%)仍落后人类35.4%!朝向和多物体推理是最大瓶颈。
视角鲁棒性(synthetic splits)¶
| 模型 | 常规视角 | 非常规视角 | 性能下降 |
|---|---|---|---|
| GPT-4o | 51.2 | 44.3 | -13.5% |
| Gemini-1.5-Pro | 59.9 | 49.5 | -32.2% |
| LLaVA-NeXT-8B | 45.5 | 36.8 | -19.1% |
| Cambrian-1-8B | 48.1 | 39.9 | -17.0% |
消融实验要点¶
- 视觉编码器设计:DINOv2作为第二编码器对朝向和多物体推理帮助最大;MAE和SAM对高度问题有显著提升;SVA连接器进一步提升(37.2%→37.8%)
- 语言模型规模:从0.5B到72B持续提升,但72B+6B视觉编码器的InternVL2.5仍落后人类40%+,说明仅靠scale up不够
- GPT-4o的失败模式:缺乏显式3D表示(如度量深度),只能依赖视觉线索进行推理,容易出错
- Gemini thinking的失败模式:能正确分解问题为小步骤,但缺乏显式3D表示导致各步骤执行不可靠
亮点¶
- 首个全面的3D空间推理基准:覆盖真实图像+合成图像、12种问题类型、常规+非常规视角
- FlipEval是聪明的设计:通过水平翻转生成配对VQA,优雅地消除了3D左右偏见,这是之前基准忽略的问题
- 揭示了LMM的根本局限:SOTA模型在3D空间推理上远不如人类,反映出现有LMM缺乏显式3D表示和真正的3D推理能力
- 非常规视角分析:对机器人/具身AI场景极其重要,揭示了看似强大的模型在非常规视角下的脆弱性
- 开放词汇实体:不限于特定物体类别,更全面地评估3D理解能力
局限性 / 可改进方向¶
- 仅评估静态图像,未涉及视频中的3D空间推理
- 问题仍限于二选/四选的VQA格式,未测试开放式3D推理
- MS-COCO图像主要是人类视角拍摄,非常规视角数据主要依赖合成图像
- 未提供3D空间推理的训练数据或微调方法,只是诊断基准
- 12种问题类型虽全面但仍可能遗漏某些3D推理能力(如物理推理、空间规划)
与相关工作的对比¶
- vs CLEVR/Super-CLEVR:3DSRBench使用真实自然图像而非合成图像,实体开放词汇而非固定类别
- vs SpatialRGPT:3DSRBench人工标注而非规则生成VQA,避免捷径和偏差;覆盖更多3D推理维度(朝向、多物体推理)
- vs CVBench:3DSRBench更聚焦于3D空间推理的全面性,增加了FlipEval和非常规视角评估
启发与关联¶
- LMM需要显式3D表示才能可靠地进行3D空间推理——这为"3D-aware LMM"的研究提供了明确方向
- 非常规视角下的性能退化对具身AI和机器人的安全性有重大启示
- 3D空间推理可能需要新的训练范式(超越纯scale up),如引入深度估计、3D场景图等中间表示
评分¶
- 新颖性: ⭐⭐⭐⭐ FlipEval设计巧妙,问题分类体系全面,非常规视角分析有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖20+模型(开源+闭源),多维度分析(编码器设计、模型规模、视角鲁棒性、失败案例)
- 写作质量: ⭐⭐⭐⭐ 结构清晰,问题类型说明详细,实验分析深入
- 价值: ⭐⭐⭐⭐⭐ 填补3D空间推理评估空白,对VLM社区和具身AI研究有重要指导意义