跳转至

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

会议: ICLR 2026
arXiv: 2510.16714
代码: 有(项目页面提供)
领域: 3D视觉 / 3D场景理解
关键词: 3D reasoning, chain-of-thought, grounded QA, 3D-LLM, scene understanding

一句话总结

提出 SceneCOT,首个将 Chain-of-Thought 推理引入 3D 场景理解的框架,通过四阶段推理管线(任务识别→区域定位→实体接地→接地推理)将中间推理步骤显式关联到视觉 grounding,在 Beacon3D 上 Good Coherence 达到 34.7%(比最强 baseline 的 20.4% 高出 70%+)。

研究背景与动机

  1. 领域现状:3D-LLM 在场景问答上取得进展,但回答往往缺乏与场景实际 grounding 的关联——模型可能给出看似合理的答案但没有真正"看到"相关物体。

  2. 现有痛点:Beacon3D 评估发现 grounding-QA 一致性(Good Coherence)极低:LEO 1.6%, PQ3D 16.5%, Chat-Scene 19.5%。大量回答属于"gounding 对但 QA 错"或"QA 对但 grounding 错"——说明推理过程与视觉感知脱节。

  3. 核心矛盾:3D 推理任务复杂多变(计数、存在性、属性、空间关系、导航等),需要不同类型的视觉线索和推理策略。单一端到端模型难以灵活处理所有任务类型。

  4. 切入角度:将 CoT 推理从文本领域迁移到 3D 场景,将复杂推理分解为可解释的步骤,每步显式关联到场景中的对象/区域。

  5. 核心idea一句话:通过特殊 token 编码的四阶段 CoT 推理(任务→区域→grounding→推理),将语言推理与 3D 视觉感知紧密耦合。

方法详解

整体框架

输入:3D 场景点云 + 自然语言问题 → Stage 1: 任务类型识别 <think_type> → Stage 2: 区域定位 <think_rgn>(方向/时钟参考系过滤无关对象)→ Stage 3: 实体接地 <think_grd> + [OBJ](调用专用 grounding 模块)→ Stage 4: 接地推理 <think_task> + 任务相关输出(概率/坐标/图像 token)→ <think_sum> 总结 → <answer> 最终回答。

关键设计

  1. 任务感知路由:识别任务类型后,自动选择合适的推理路径和输出格式——计数用 <obj_prob>,空间推理用 <obj_loc_prob>,导航用极坐标 <obj_loc_plr_prob>,属性用图像 token <highlight_obj>

  2. 区域定位:用方向线索(前后左右)和时钟参考系(1-12点方向,30°增量)离散化空间,大幅缩小推理搜索空间。规则基解析器提取方向信息。

  3. 模块化专家组合:MLLM 骨干(LLaVA-1.5 + LoRA)+ 微调 PQ3D(3D grounding)+ 2D VLM(属性推理)+ 轻量掩码预测器。符号引擎负责区域识别。

损失函数 / 训练策略

\(\mathcal{L} = \mathcal{L}_{\text{CoT}} + \mathcal{L}_{\text{ans}} + \mathcal{L}_{\text{ground}}\)

训练数据:SceneCOT-185K(145.6K 情境推理 + 40K 对象推理),4×A100,5 epochs,LoRA微调。

实验关键数据

主实验

方法 MSQA Overall Beacon3D Case Beacon3D Obj. Good Coherence
GPT-4o 52.3 57.1 20.2 -
LEO 54.8 43.2 7.8 1.6
Chat-Scene† 56.6 53.6 14.0 19.5
SceneCOT 55.6 58.9 23.2 34.7

消融实验

配置 Overall
Full Model 55.6
w/o 任务类型识别 ~45(强制错误类型)
w/o 区域识别 ~50
w/o Grounding Loss ~53
Oracle(完美 grounding) 78.1

关键发现

  • Good Coherence 是最大亮点:34.7% vs 20.4%(SceneVerse)——唯一真正实现 grounding-QA 对齐的方法
  • 计数任务提升最大:47.9% vs Chat-Scene† 37.4%(+10.5),得益于通过 grounding 统计对象数量
  • Oracle 分析揭示 grounding 错误是最大瓶颈——完美 grounding 可将 overall 从 55.6→78.1
  • 零样本泛化:在 SQA3D/ScanQA 上未微调仍表现良好(F1@50: 51.6/40.8)

亮点与洞察

  • 推理过程可解释:四阶段 CoT 的每一步都可检查——任务类型正确吗?区域对吗?grounding 到了正确物体吗?这在之前的 3D-LLM 中是不可能的
  • 区域定位作为注意力机制:时钟参考系简洁优雅地将 3D 空间离散化,大幅减少候选对象——类似于视觉 Transformer 中的区域注意力

局限性 / 可改进方向

  • MSQA Overall 并未超过 Chat-Scene†(55.6 vs 56.6),在属性任务上较弱(49.6)
  • 依赖外部 grounding 模块(PQ3D),grounding 精度是性能上限——oracle 实验证明了这一点
  • 仅在 ScanNet 场景上训练,室外/大规模场景泛化未验证
  • 四阶段管线推理延迟较高,不适合实时交互

相关工作与启发

  • vs Chat-Scene: Chat-Scene QA 精度略高但 Good Coherence 仅 19.5%——回答不总是基于正确 grounding
  • vs LEO: LEO 的 GC 仅 1.6%,几乎完全不做 grounding 就回答
  • vs GPT-4o: GPT-4o 在 Beacon3D 上表现不错(57.1)但缺乏 3D grounding 能力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将 CoT 引入 3D 场景推理,四阶段设计系统完整
  • 实验充分度: ⭐⭐⭐⭐ 多 benchmark 评估、详尽消融、oracle 分析、零样本泛化
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,CoT 设计动机到位
  • 价值: ⭐⭐⭐⭐⭐ 定义了 3D 推理的新范式,Good Coherence 指标值得广泛采用