跳转至

ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities

会议: ECCV 2024
arXiv: 2407.01525
代码: https://github.com/ZCMax/ScanReason (有)
领域: LLM推理
关键词: 3D visual grounding, reasoning, MLLM, chain-of-grounding, 3D scene understanding

一句话总结

提出 3D reasoning grounding 新任务和 ScanReason 基准(10K+ QA-location pairs,5种推理类型),设计 ReGround3D 框架将 MLLM 推理与 3D grounding 模块通过 Chain-of-Grounding 机制协同,在隐式指令下实现准确的 3D 目标定位。

研究背景与动机

  1. 领域现状:3D visual grounding 已取得很大进展,但现有模型(ScanRefer、BUTD-DETR 等)依赖显式的文本描述来定位,如"靠近窗户的红色椅子"——通过物体类别、属性、空间关系的直接对齐来实现。
  2. 现有痛点:真实场景中人的指令往往是隐式的——"我渴了,有什么可以喝的吗?"(需要推理"渴→饮料→冰箱/桌上的杯子")。现有模型无法处理这种需要推理的间接指令。
  3. 核心矛盾:3D 场景理解需要同时具备推理能力(理解隐式意图)和定位能力(精确3D坐标)。现有 MLLM(如3D-LLM)有推理能力但定位精度差;专用 grounding 模型定位准但缺乏推理能力。
  4. 本文要解决什么? (a) 定义 3D reasoning grounding 新任务;(b) 构建包含多种推理类型的基准数据集;(c) 设计能同时推理和精确定位的模型架构。
  5. 切入角度:将推理和定位拆分为两个协作模块——先推理"要找什么",再回头看3D场景精确定位。
  6. 核心idea一句话:用 MLLM 做视觉中心的推理生成 grounding query,再通过几何增强的 look-back 机制在 3D 点云中精确定位目标。

方法详解

整体框架

输入:3D 场景点云 + 隐式自然语言问题 → 视觉中心推理模块(基于3D-LLM)进行场景-问题联合推理,输出特殊 <LOC> token → 3D grounding 模块接收 <LOC> embedding,回看原始3D场景执行精确定位 → 输出:目标物体的 3D bounding box + 文本回答/解释。

关键设计

  1. ScanReason 基准数据集:
  2. 做什么:定义 5 种推理类型的 3D reasoning grounding 基准
  3. 核心思路:空间推理(理解物体间3D关系)、功能推理(理解物体用途/功能)、逻辑推理(目标导向的多步推理)、情感推理(理解人类情绪需求)、安全推理(识别风险和安全决策)。使用 GPT-4 结合 EmbodiedScan 标注自动生成 12,929 个 QA-location pairs
  4. 设计动机:从基础能力(空间+功能)到高层应用(逻辑+情感+安全),构建层次化推理体系

  5. 视觉中心推理模块(Visual-Centric Reasoning):

  6. 做什么:联合推理 3D 场景和语言指令,生成蕴含 grounding 意图的特征
  7. 核心思路:基于 3D-LLM(BLIP2 架构),用多视角 2D 特征反投影到 3D 空间,通过 Q-Former 编码为 32 个视觉 token。扩展词汇表添加 <LOC> token,其 last-layer embedding \(h_{loc}\) 编码了目标物体的语义和位置信息
  8. 设计动机:不直接让 MLLM 预测 bounding box 坐标(精度差),而是让它输出一个特征级的"定位意图",留给专门的定位模块来精确执行

  9. 3D Grounding with Geometry-Enhanced Look-Back:

  10. 做什么:利用3D点云编码器回看原始场景,实现精确3D定位
  11. 核心思路:用 3D 点云编码器提取细粒度几何特征 \(f_{scene}\)。Query Selection Module 用交叉注意力(\(f_{scene}\) 作 Q,\(h_{loc}\) 作 K/V)生成激活热图,选择 top-k 最相关特征作为 object query。最后通过 Transformer decoder 预测 3D bounding box
  12. 设计动机:3D-LLM 的视觉 token 基于 2D 图像特征,缺乏精确的3D几何信息;通过"回看"原始点云补充细粒度空间结构

  13. Chain-of-Grounding (CoG) 机制:

  14. 做什么:推理和定位交替执行多轮,逐步精化定位结果
  15. 核心思路:将原始隐式问题先转化为定位显式提到的物体 → 获取这些物体的3D位置和置信度 → 将定位结果插入更新问题 → 再次推理和定位 → 输出最终目标。类似于 chain-of-thought 但交替的是推理和定位步骤
  16. 设计动机:复杂问题中,定位结果可以反向辅助推理——知道了"厨房"在哪,才能推理出"最近的垃圾桶"

损失函数

\(\mathcal{L} = \lambda_{text}\mathcal{L}_{text} + \lambda_{det}\mathcal{L}_{det}\),其中 \(\mathcal{L}_{det} = \lambda_{IOU}\mathcal{L}_{IOU} + \lambda_{contrast}\mathcal{L}_{contrast}\)。文本损失来自 next token prediction,检测损失来自 3D bounding box 回归。

实验关键数据

主实验(3D Visual Grounding - ScanRefer)

方法 类型 Acc@0.25 Acc@0.5
BUTD-DETR Specialist 52.2 39.8
L3Det Specialist 52.8 40.2
3D-LLM MLLM 30.3 -
Chat3D-v2 MLLM 35.9 30.4
ReGround3D Ours 53.1 41.1

3D Reasoning Grounding(ScanReason 基准)

方法 Spatial Functional Logical Emotional Safety Overall
Mask3D+InternLM2 10.34 36.12 9.98 8.21 8.99 14.86
3D-LLM(vg) 18.31 17.42 10.97 8.12 6.33 13.29
Chat3D-v2 20.21 18.39 11.32 7.98 9.88 14.98
ReGround3D 32.98 36.23 26.99 23.12 22.98 28.98
ReGround3D(CoG) 34.71 36.79 29.11 24.03 23.21 30.62

消融实验

配置 ScanReason Acc@0.25 说明
3D-LLM(full+sr) 19.21 直接用 MLLM 输出坐标
ReGround3D 28.98 +3D grounding module → 提升 +9.77
ReGround3D(CoG) 30.62 +Chain-of-Grounding → 再提升 +1.64

关键发现

  • 3D grounding module 是最大的提升来源(+9.77),验证了"推理+定位分离"设计的有效性
  • CoG 在空间推理和逻辑推理上提升最明显(+1.73 和 +2.12),因为这两类任务最需要"知道中间物体的位置才能继续推理"
  • 即使不用 ScanReason 训练数据(ReGround3D*),仍大幅超越其他 MLLM(23.27 vs 14.98),说明架构设计本身就有优势
  • Mask3D+InternLM2 在功能推理上很强(36.12),因为功能推理主要靠物体类别的常识,LLM 天然擅长

亮点与洞察

  • 推理-定位分离 + Look-Back 机制:不让 MLLM 直接输出坐标,而是输出"定位意图"再由专门模块执行——这种分工设计可迁移到任何需要 MLLM + 精确预测的任务(如2D定位、分割等)
  • Chain-of-Grounding:将 CoT 的思路从纯文本推理扩展到"推理+感知"交替——感知结果反馈推理,形成更强的闭环。这个思路可以泛化到其他需要多轮感知-推理的任务
  • 5种推理类型的层次化设计:从基础(空间+功能)到高级(逻辑+情感+安全),提供了评估具身AI推理能力的系统性框架

局限性 / 可改进方向

  • 整体精度仍然较低(best Acc@0.25 只有 30.62),离实用有较大距离
  • ScanReason 数据集由 GPT-4 自动生成,可能存在标注噪声和偏差
  • CoG 目前只做两轮推理-定位交替,更复杂的场景可能需要更多轮
  • 3D-LLM 的视觉表示基于 2D 图像投影,可能不是最优的 3D 编码方式
  • 推理类型的定义和分类比较主观,边界不够清晰

相关工作与启发

  • vs 3D-LLM: 都用 MLLM 理解 3D 场景,但 3D-LLM 直接输出坐标精度差,ReGround3D 引入专门的 grounding 模块大幅提升定位能力
  • vs Chat3D-v2: Chat3D-v2 先分割再识别,ReGround3D 先推理再定位,后者对隐式指令更友好
  • vs 2D visual grounding: 3D 场景的推理定位比 2D 复杂得多(空间关系+遮挡+多视角),方法思路可借鉴但挑战不同

评分

  • 新颖性: ⭐⭐⭐⭐ 新任务+新数据集+推理-定位分离设计很有创意
  • 实验充分度: ⭐⭐⭐⭐ 消融完整,但 baseline 对比可更多
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述充分
  • 价值: ⭐⭐⭐⭐ ScanReason 基准对社区有重要价值,推动具身AI推理研究