Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning¶
会议: AAAI 2026
arXiv: 2511.05894
代码: 无
领域: 3D视觉
关键词: 3D场景图, 开放世界, 检索增强推理, 视觉-语言模型, 具身交互
一句话总结¶
提出统一框架 OSU-3DSG,结合视觉-语言模型进行开放世界 3D 场景图生成,并通过检索增强推理支持场景问答、视觉定位、实例检索和任务规划四种交互任务,在无监督条件下达到与有监督方法可比的性能。
研究背景与动机¶
理解 3D 场景是自主导航、增强现实等任务的基础。但现有方法面临几个关键挑战:
封闭词汇限制:传统 3D 场景图方法(如 3DSSG)依赖预定义标签集和有监督标注,无法泛化到新环境中的未见物体和关系
静态标注依赖:需要标注好的 RGB-D 数据和已知相机位姿,在实际开放世界场景中不切实际
2D-3D 投影误差:依赖 2D VLM 通过投影推断 3D 语义的方法会受遮挡、视角变化的影响
核心思路:利用 VLM 的开放词汇能力实现无标注的 3D 场景图生成,再将场景图编码为向量数据库,支持基于检索的多模态推理和交互。这样既免除了人工标注的需求,又能通过检索增强 LLM 的场景感知推理能力。
方法详解¶
整体框架¶
框架包含两大组件: 1. 3D 场景图生成器:从 RGB-D 序列增量构建语义和空间表示 2. 检索增强推理模块:将场景图转化为向量化知识库,支持文本/图像条件查询
关键设计¶
- 开放世界 3D 场景图生成
多帧物体检测: 从 RGB-D 帧序列中检测物体,每帧包含彩色图像 \(I\)、深度图 \(D\)、相机内参 \(K\) 和位姿 \(T_w^c \in SE(3)\)。检测到的物体用有向 3D 包围盒表示: $\(b_i = (c_i, \ell_i, R_i), \quad c_i \in \mathbb{R}^3, \ell_i \in \mathbb{R}_{>0}^3, R_i \in SO(3)\)$
检测置信度用 Beta 分布建模:\(\sigma_i \sim \text{Beta}(\alpha_i, \beta_i)\),自适应缩放因子 \(\tau\) 基于预测概率的熵动态调整。
利用掩码进行深度反投影获取 3D 点:\(X_j^c = K^{-1}[u_j\ v_j\ 1]D_j\),再变换到世界坐标系。
每 \(L\) 帧基于余弦相似度合并重复物体: $\(S(\tilde{f}_i, \tilde{f}_j) = \frac{\langle \tilde{f}_i, \tilde{f}_j \rangle}{\|\tilde{f}_i\| \|\tilde{f}_j\|}\)$ 其中特征经 Mahalanobis 白化预处理。
最佳视角选择与标注: 为每个物体选择最大化可见性和投影覆盖的最佳视角: $\(T_{w,i}^{c*} = \arg\max_{T_w^c \in \mathcal{P}} \left[A(\mathcal{P}(X_i^w, T_w^c)) \cdot V(X_i^w, T_w^c)^\gamma - \lambda D(T_{w,i}^c, T_w^c)\right]\)$ 然后使用 LLaVA 在最佳视角下对物体进行语义标注。
设计动机:最佳视角减少了遮挡和模糊,使 VLM 能给出更准确的开放词汇标注。
可靠物体过滤: 基于欧氏距离和 3D IoU 筛选有效物体对(\(d_{thresh} = 0.5m\)),控制后续关系推理的计算量。
语义关系提取: 使用 Qwen2-VL-72B 对每个有效物体对推断 top-5 语义谓词: $\(\mathcal{R}_{ij} = (o_i, r_{ij}, o_j), \quad r_{ij} \in \mathcal{C}_{edge}\)$ 过滤背景元素(地板、天花板),得到最终 3D 语义场景图。
- 检索增强语义推理
向量数据库构建: 将场景图重组为以物体标签为中心的"块"(chunk),每个块聚合该类物体的所有实例信息。通过语义编码器(CLIP/BERT/Text2Vec)映射到高维向量空间: $\(\boldsymbol{\zeta}_i = \phi(\boldsymbol{\eta}_i), \quad \mathcal{D} = \{(\boldsymbol{\zeta}_i, \boldsymbol{\eta}_i)\}_{i=1}^N\)$
基于接地的提示推理: 给定用户查询 \(q\),编码后进行 top-k 相似度检索: $\(\mathcal{E}_q = \text{Top-}k(\mathcal{D}, \boldsymbol{\xi}_q)\)$
检索到的场景信息与用户查询组合成结构化提示,送入 LLM(Qwen-2-72B-Instruct)进行接地推理。
-
四种场景交互任务
- 任务 I:文本场景问答 — 基于场景图事实回答自然语言问题
- 任务 II:文本到视觉定位 — 将文本查询接地到空间位置和最佳视图图像
- 任务 III:多模态实例检索 — 支持文本/图像/混合查询的实例级搜索
- 任务 IV:开放场景任务规划 — 将高层指令分解为可执行步骤序列
损失函数 / 训练策略¶
本方法为零样本推理框架,不涉及端到端训练,主要依赖预训练 VLM 的推理能力和检索机制。关键超参数包括: - 物体合并余弦相似度阈值 \(\tau_{merge}\) - 物体对距离阈值 \(d_{thresh} = 0.5m\) - 开放词汇标签匹配:BERT 嵌入余弦相似度阈值 0.95(物体)/ 0.9(谓词)
实验关键数据¶
主实验¶
3D 场景图生成(3DSSG 数据集):
| 方法 | 类型 | Object R@1 | Predicate R@1 | Predicate R@3 | Relation R@1 | Relation R@3 |
|---|---|---|---|---|---|---|
| 3DSSG | 封闭 | 0.82 | 0.83 | 0.85 | 0.63 | 0.63 |
| MonoSSG | 封闭 | 0.86 | 0.89 | 0.90 | 0.89 | 0.90 |
| VL-SAT | 封闭 | 0.82 | 0.94 | 0.94 | 0.87 | 0.88 |
| Open3DSG | 开放 | 0.65 | 0.81 | 0.81 | 0.70 | 0.72 |
| BBQ | 开放 | 0.59 | 0.61 | 0.61 | 0.68 | 0.68 |
| OSU-3DSG (Ours) | 开放 | 0.83 | 0.95 | 0.97 | 0.78 | 0.80 |
作为零样本方法,谓词预测超越所有封闭词汇方法(R@1 0.95 vs VL-SAT 0.94),远超开放词汇基线。
场景交互任务:
| 任务 | 指标 | OSU-3DSG | GPT-4o | Gemini | ChatGLM |
|---|---|---|---|---|---|
| 场景问答 | 准确率 | 0.84 | 0.82 | 0.80 | 0.72 |
| 任务规划 | 正确率 | 87.5% | 72.9% | 65.4% | 58.7% |
| 任务规划 | 可执行率 | 81.25% | 78.2% | 69.8% | 62.3% |
消融实验¶
语义关系提取器(SRE)过滤策略:
| IoU | Distance | 三元组数 | Predicate R@1 | Relation R@1 | 说明 |
|---|---|---|---|---|---|
| ✗ | ✗ | 291 | 0.95 | 0.94 | 无过滤,计算开销大 |
| ✔ | ✗ | 30 | 0.76 | 0.83 | 仅 IoU 过滤不足 |
| ✗ | ✔ | 11 | 0.85 | 0.75 | 仅距离过滤,三元组太少 |
| ✔ | ✔ | 34 | 0.87 | 0.78 | 最佳平衡 |
联合使用 IoU 和距离约束将候选三元组降至 34 个,在保持高召回的同时大幅减少了 VLM 推理成本。
关键发现¶
- 零样本场景图生成可达到甚至超越有监督方法在谓词预测上的性能
- 检索增强推理在场景问答上超过 GPT-4o,证明了结构化场景知识的价值
- 最佳视角选择对物体识别准确性至关重要
- 固定距离阈值(0.5m)可能不适用于所有场景密度和物体尺度
亮点与洞察¶
- 统一的开放世界 3D 理解框架:将场景图生成和多模态推理整合为一个一致的系统,覆盖从感知到规划的全链路
- 零样本超越有监督:利用大规模 VLM 的知识实现了在谓词预测上超越全监督方法的性能,展示了 VLM 零样本能力的巨大潜力
- 检索增强策略的优势:相比直接将场景信息塞入 LLM 提示,先检索相关部分再形成提示更高效、更准确
- 最佳视角选择机制:自动选择每个物体的最佳观察角度,减少遮挡和歧义,提高 VLM 标注质量
局限与展望¶
- 物体对过滤的距离阈值(0.5m)为固定值,跨场景泛化性有待验证
- 关系推理严重依赖 Qwen2-VL-72B 的推理能力,LLM 能力的上限即方法的上限
- 视觉定位任务的绝对准确率较低(~0.23),3D 空间与文本的联合推理仍是开放挑战
- 仅在室内场景验证,大规模室外场景的可扩展性未知
- 任务规划缺乏与真实机器人执行的闭环验证
相关工作与启发¶
- Open3DSG (2024):开放词汇 3D 场景图的先驱工作,但仍依赖标注 RGB-D 和固定位姿
- BBQ (2024, Linok et al.):目标中心的开放世界场景图模型,为本文的开放词汇基线
- ConceptGraphs:类似的 VLM 驱动 3D 场景图方法,但未结合检索增强推理
- 启发:将 3D 场景理解转化为"构建知识库 + 检索增强推理"的范式,可推广到其他结构化场景理解任务
评分¶
- 新颖性: ⭐⭐⭐⭐ (检索增强推理与 3D 场景图结合是较新的范式)
- 实验充分度: ⭐⭐⭐⭐ (覆盖四种交互任务,但每个任务的评估规模较小)
- 写作质量: ⭐⭐⭐⭐ (框架描述清晰,但公式较多,部分定义可简化)
- 价值: ⭐⭐⭐⭐ (开放世界 3D 理解的重要方向,零样本性能令人鼓舞)
相关论文¶
- [CVPR 2026] Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos
- [AAAI 2026] TOSC: Task-Oriented Shape Completion for Open-World Dexterous Grasp Generation from Partial Point Clouds
- [AAAI 2026] OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding
- [ICCV 2025] Open-Vocabulary Octree-Graph for 3D Scene Understanding
- [ICLR 2026] CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D