3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark¶

会议: ICCV 2025
arXiv: 2412.07825
代码: 项目主页 (有)
领域: 3D视觉 / 多模态VLM
关键词: 3D Spatial Reasoning, Benchmark, Large Multimodal Models, Visual Question Answering, Camera Viewpoint Robustness

一句话总结¶

提出首个全面的3D空间推理基准3DSRBench，包含2,772个人工标注的VQA对（12种问题类型），通过平衡数据分布和新型FlipEval策略实现鲁棒评估，揭示SOTA LMM（包括GPT-4o、Gemini）在3D空间推理上远落后于人类水平（≈52% vs 95.7%），且在非常规视角下性能显著退化。

背景与动机¶

3D空间推理是智能体的基础能力：自动导航、机器人操作、AR/VR等下游任务都依赖模型理解物体在3D空间中的位置、朝向和关系
现有空间推理基准的不足：
早期数据集（VQA、GQA等）只关注2D空间关系（基于观察者视角的左/右），可以仅从2D bounding box推断
合成数据集（CLEVR等）与自然图像存在巨大领域差异
SpatialRGPT等依赖Omni3D的3D标注，限于室内/自动驾驶的刚性物体类别
规则生成的VQA容易产生捷径和偏差
LMM的3D意识未被充分研究：虽然GPT-4o等在很多VQA任务上表现出色，但在真正的3D空间推理（需要理解深度、相机外参、物体3D朝向等）上的能力鲜有系统评测

核心问题¶

如何构建一个全面、鲁棒的3D空间推理基准，涵盖多种3D推理维度？
当前SOTA LMM在3D空间推理的各个方面（高度、位置、朝向、多物体推理）表现如何？
LMM的3D空间推理能力对相机视角变化的鲁棒性如何（特别是非常规视角）？

方法详解¶

整体框架¶

3DSRBench由三个子集组成： - 3DSRBench-real：2,100个基于MS-COCO自然图像的VQA对（经数据增强后5,250个） - 3DSRBench-synthetic-common：基于HSSD室内场景渲染的常规视角VQA - 3DSRBench-synthetic-uncommon：同一场景的非常规视角VQA 总计672个合成VQA对（增强后1,692个），12种问题类型分为4大类。

关键设计¶

12种问题类型，4大类别：
高度（1种）：判断哪个物体在3D世界空间中更高（需理解相机俯仰角校正）
位置（3种）：物体距离远近、谁离相机更近、物体是否在另一个正上/下方
朝向（3种）：物体哪一面朝向相机、物体前后关系（物体视角而非观察者视角）、物体左右关系
多物体推理（5种）：涉及3+物体的3D距离比较、朝向关系等，需要多步3D计算
FlipEval策略：对图像水平翻转生成配对VQA。涉及左/右的3D空间关系答案会翻转，消除了模型的左右偏见（如"司机通常坐在左边"），并防止随机猜测。与CircularEval（打乱选项顺序要求全部正确）结合使用。
平衡数据分布 + 避免捷径：yes/no答案大致平衡，收集互补图像对（同一问题产生相反答案），避免平凡答案（如两个物体距离差异过大时不提问），确保不能仅靠2D信息获得正确答案。
开放词汇实体：不限于刚性物体类别，覆盖人类、动物、隐含概念（如车上的logo、广告牌上的箭头），更贴近真实世界场景。

评估设计¶

CircularEval：每个问题重复2-4次（不同选项顺序），需全部正确才算对，消除猜测和顺序偏差
FlipEval：水平翻转图像生成配对问题，消除左右偏见
LLM辅助答案提取：free-form回答用GPT-4提取选项标签

实验关键数据¶

主要结果（3DSRBench-real）¶

模型	总体	高度	位置	朝向	多物体
Random	20.9	25.0	25.0	16.8	20.1
Human	95.7	92.9	96.4	97.7	94.9
LLaVA-v1.5-7B	38.1	39.1	46.9	28.7	34.7
InternVL2.5-8B	50.9	45.9	68.1	38.7	43.3
QWen2.5-VL-7B	48.4	44.1	62.7	40.6	40.5
SpatialReasoner	60.3	52.5	75.2	55.2	51.8
Claude-3.5V-Sonnet	48.2	53.5	63.1	31.4	41.3
GPT-4o	44.2	53.2	59.6	21.6	39.0
QWenVLMax	52.0	45.1	70.7	37.7	44.8
Gemini-2.0-Flash-think	51.1	53.0	67.1	35.8	43.6

关键发现：最好的开源模型SpatialReasoner (60.3%)仍落后人类35.4%！朝向和多物体推理是最大瓶颈。

视角鲁棒性（synthetic splits）¶

模型	常规视角	非常规视角	性能下降
GPT-4o	51.2	44.3	-13.5%
Gemini-1.5-Pro	59.9	49.5	-32.2%
LLaVA-NeXT-8B	45.5	36.8	-19.1%
Cambrian-1-8B	48.1	39.9	-17.0%

消融实验要点¶

视觉编码器设计：DINOv2作为第二编码器对朝向和多物体推理帮助最大；MAE和SAM对高度问题有显著提升；SVA连接器进一步提升（37.2%→37.8%）
语言模型规模：从0.5B到72B持续提升，但72B+6B视觉编码器的InternVL2.5仍落后人类40%+，说明仅靠scale up不够
GPT-4o的失败模式：缺乏显式3D表示（如度量深度），只能依赖视觉线索进行推理，容易出错
Gemini thinking的失败模式：能正确分解问题为小步骤，但缺乏显式3D表示导致各步骤执行不可靠

亮点¶

首个全面的3D空间推理基准：覆盖真实图像+合成图像、12种问题类型、常规+非常规视角
FlipEval是聪明的设计：通过水平翻转生成配对VQA，优雅地消除了3D左右偏见，这是之前基准忽略的问题
揭示了LMM的根本局限：SOTA模型在3D空间推理上远不如人类，反映出现有LMM缺乏显式3D表示和真正的3D推理能力
非常规视角分析：对机器人/具身AI场景极其重要，揭示了看似强大的模型在非常规视角下的脆弱性
开放词汇实体：不限于特定物体类别，更全面地评估3D理解能力

局限性 / 可改进方向¶

仅评估静态图像，未涉及视频中的3D空间推理
问题仍限于二选/四选的VQA格式，未测试开放式3D推理
MS-COCO图像主要是人类视角拍摄，非常规视角数据主要依赖合成图像
未提供3D空间推理的训练数据或微调方法，只是诊断基准
12种问题类型虽全面但仍可能遗漏某些3D推理能力（如物理推理、空间规划）

与相关工作的对比¶

vs CLEVR/Super-CLEVR：3DSRBench使用真实自然图像而非合成图像，实体开放词汇而非固定类别
vs SpatialRGPT：3DSRBench人工标注而非规则生成VQA，避免捷径和偏差；覆盖更多3D推理维度（朝向、多物体推理）
vs CVBench：3DSRBench更聚焦于3D空间推理的全面性，增加了FlipEval和非常规视角评估

启发与关联¶

LMM需要显式3D表示才能可靠地进行3D空间推理——这为"3D-aware LMM"的研究提供了明确方向
非常规视角下的性能退化对具身AI和机器人的安全性有重大启示
3D空间推理可能需要新的训练范式（超越纯scale up），如引入深度估计、3D场景图等中间表示

评分¶

新颖性: ⭐⭐⭐⭐ FlipEval设计巧妙，问题分类体系全面，非常规视角分析有新意
实验充分度: ⭐⭐⭐⭐⭐ 覆盖20+模型（开源+闭源），多维度分析（编码器设计、模型规模、视角鲁棒性、失败案例）
写作质量: ⭐⭐⭐⭐ 结构清晰，问题类型说明详细，实验分析深入
价值: ⭐⭐⭐⭐⭐ 填补3D空间推理评估空白，对VLM社区和具身AI研究有重要指导意义