Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning¶

会议: AAAI 2026
arXiv: 2511.05894
代码: 无
领域: 3D视觉
关键词: 3D场景图, 开放世界, 检索增强推理, 视觉-语言模型, 具身交互

一句话总结¶

提出统一框架 OSU-3DSG，结合视觉-语言模型进行开放世界 3D 场景图生成，并通过检索增强推理支持场景问答、视觉定位、实例检索和任务规划四种交互任务，在无监督条件下达到与有监督方法可比的性能。

研究背景与动机¶

理解 3D 场景是自主导航、增强现实等任务的基础。但现有方法面临几个关键挑战：

封闭词汇限制：传统 3D 场景图方法（如 3DSSG）依赖预定义标签集和有监督标注，无法泛化到新环境中的未见物体和关系

静态标注依赖：需要标注好的 RGB-D 数据和已知相机位姿，在实际开放世界场景中不切实际

2D-3D 投影误差：依赖 2D VLM 通过投影推断 3D 语义的方法会受遮挡、视角变化的影响

核心思路：利用 VLM 的开放词汇能力实现无标注的 3D 场景图生成，再将场景图编码为向量数据库，支持基于检索的多模态推理和交互。这样既免除了人工标注的需求，又能通过检索增强 LLM 的场景感知推理能力。

方法详解¶

整体框架¶

框架包含两大组件： 1. 3D 场景图生成器：从 RGB-D 序列增量构建语义和空间表示 2. 检索增强推理模块：将场景图转化为向量化知识库，支持文本/图像条件查询

关键设计¶

开放世界 3D 场景图生成

多帧物体检测：从 RGB-D 帧序列中检测物体，每帧包含彩色图像 $I$、深度图 $D$、相机内参 $K$ 和位姿 $T_w^c \in SE(3)$。检测到的物体用有向 3D 包围盒表示： $$b_i = (c_i, \ell_i, R_i), \quad c_i \in \mathbb{R}^3, \ell_i \in \mathbb{R}_{>0}^3, R_i \in SO(3)$$

检测置信度用 Beta 分布建模：$\sigma_i \sim \text{Beta}(\alpha_i, \beta_i)$，自适应缩放因子 $\tau$ 基于预测概率的熵动态调整。

利用掩码进行深度反投影获取 3D 点：$X_j^c = K^{-1}[u_j\ v_j\ 1]D_j$，再变换到世界坐标系。

每 $L$ 帧基于余弦相似度合并重复物体： $$S(\tilde{f}_i, \tilde{f}_j) = \frac{\langle \tilde{f}_i, \tilde{f}_j \rangle}{\|\tilde{f}_i\| \|\tilde{f}_j\|}$$ 其中特征经 Mahalanobis 白化预处理。

最佳视角选择与标注：为每个物体选择最大化可见性和投影覆盖的最佳视角： $$T_{w,i}^{c*} = \arg\max_{T_w^c \in \mathcal{P}} \left[A(\mathcal{P}(X_i^w, T_w^c)) \cdot V(X_i^w, T_w^c)^\gamma - \lambda D(T_{w,i}^c, T_w^c)\right]$$ 然后使用 LLaVA 在最佳视角下对物体进行语义标注。

设计动机：最佳视角减少了遮挡和模糊，使 VLM 能给出更准确的开放词汇标注。

可靠物体过滤：基于欧氏距离和 3D IoU 筛选有效物体对（$d_{thresh} = 0.5m$），控制后续关系推理的计算量。

语义关系提取：使用 Qwen2-VL-72B 对每个有效物体对推断 top-5 语义谓词： $$\mathcal{R}_{ij} = (o_i, r_{ij}, o_j), \quad r_{ij} \in \mathcal{C}_{edge}$$ 过滤背景元素（地板、天花板），得到最终 3D 语义场景图。

检索增强语义推理

向量数据库构建：将场景图重组为以物体标签为中心的"块"（chunk），每个块聚合该类物体的所有实例信息。通过语义编码器（CLIP/BERT/Text2Vec）映射到高维向量空间： $$\boldsymbol{\zeta}_i = \phi(\boldsymbol{\eta}_i), \quad \mathcal{D} = \{(\boldsymbol{\zeta}_i, \boldsymbol{\eta}_i)\}_{i=1}^N$$

基于接地的提示推理：给定用户查询 $q$，编码后进行 top-k 相似度检索： $$\mathcal{E}_q = \text{Top-}k(\mathcal{D}, \boldsymbol{\xi}_q)$$

检索到的场景信息与用户查询组合成结构化提示，送入 LLM（Qwen-2-72B-Instruct）进行接地推理。

四种场景交互任务
- 任务 I：文本场景问答 — 基于场景图事实回答自然语言问题
- 任务 II：文本到视觉定位 — 将文本查询接地到空间位置和最佳视图图像
- 任务 III：多模态实例检索 — 支持文本/图像/混合查询的实例级搜索
- 任务 IV：开放场景任务规划 — 将高层指令分解为可执行步骤序列

损失函数 / 训练策略¶

本方法为零样本推理框架，不涉及端到端训练，主要依赖预训练 VLM 的推理能力和检索机制。关键超参数包括： - 物体合并余弦相似度阈值 $\tau_{merge}$ - 物体对距离阈值 $d_{thresh} = 0.5m$ - 开放词汇标签匹配：BERT 嵌入余弦相似度阈值 0.95（物体）/ 0.9（谓词）

实验关键数据¶

主实验¶

3D 场景图生成（3DSSG 数据集）：

方法	类型	Object R@1	Predicate R@1	Predicate R@3	Relation R@1	Relation R@3
3DSSG	封闭	0.82	0.83	0.85	0.63	0.63
MonoSSG	封闭	0.86	0.89	0.90	0.89	0.90
VL-SAT	封闭	0.82	0.94	0.94	0.87	0.88
Open3DSG	开放	0.65	0.81	0.81	0.70	0.72
BBQ	开放	0.59	0.61	0.61	0.68	0.68
OSU-3DSG (Ours)	开放	0.83	0.95	0.97	0.78	0.80

作为零样本方法，谓词预测超越所有封闭词汇方法（R@1 0.95 vs VL-SAT 0.94），远超开放词汇基线。

场景交互任务：

任务	指标	OSU-3DSG	GPT-4o	Gemini	ChatGLM
场景问答	准确率	0.84	0.82	0.80	0.72
任务规划	正确率	87.5%	72.9%	65.4%	58.7%
任务规划	可执行率	81.25%	78.2%	69.8%	62.3%

消融实验¶

语义关系提取器（SRE）过滤策略：

IoU	Distance	三元组数	Predicate R@1	Relation R@1	说明
✗	✗	291	0.95	0.94	无过滤，计算开销大
✔	✗	30	0.76	0.83	仅 IoU 过滤不足
✗	✔	11	0.85	0.75	仅距离过滤,三元组太少
✔	✔	34	0.87	0.78	最佳平衡

联合使用 IoU 和距离约束将候选三元组降至 34 个，在保持高召回的同时大幅减少了 VLM 推理成本。

关键发现¶

零样本场景图生成可达到甚至超越有监督方法在谓词预测上的性能
检索增强推理在场景问答上超过 GPT-4o，证明了结构化场景知识的价值
最佳视角选择对物体识别准确性至关重要
固定距离阈值（0.5m）可能不适用于所有场景密度和物体尺度

亮点与洞察¶

统一的开放世界 3D 理解框架：将场景图生成和多模态推理整合为一个一致的系统，覆盖从感知到规划的全链路
零样本超越有监督：利用大规模 VLM 的知识实现了在谓词预测上超越全监督方法的性能，展示了 VLM 零样本能力的巨大潜力
检索增强策略的优势：相比直接将场景信息塞入 LLM 提示，先检索相关部分再形成提示更高效、更准确
最佳视角选择机制：自动选择每个物体的最佳观察角度，减少遮挡和歧义，提高 VLM 标注质量

局限与展望¶

物体对过滤的距离阈值（0.5m）为固定值，跨场景泛化性有待验证
关系推理严重依赖 Qwen2-VL-72B 的推理能力，LLM 能力的上限即方法的上限
视觉定位任务的绝对准确率较低（~0.23），3D 空间与文本的联合推理仍是开放挑战
仅在室内场景验证，大规模室外场景的可扩展性未知
任务规划缺乏与真实机器人执行的闭环验证

评分¶

新颖性: ⭐⭐⭐⭐ （检索增强推理与 3D 场景图结合是较新的范式）
实验充分度: ⭐⭐⭐⭐ （覆盖四种交互任务，但每个任务的评估规模较小）
写作质量: ⭐⭐⭐⭐ （框架描述清晰，但公式较多，部分定义可简化）
价值: ⭐⭐⭐⭐ （开放世界 3D 理解的重要方向，零样本性能令人鼓舞）