跳转至

Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning

会议: AAAI 2026
arXiv: 2511.05894
代码: 无
领域: 3D视觉
关键词: 3D场景图, 开放世界, 检索增强推理, 视觉-语言模型, 具身交互

一句话总结

提出统一框架 OSU-3DSG,结合视觉-语言模型进行开放世界 3D 场景图生成,并通过检索增强推理支持场景问答、视觉定位、实例检索和任务规划四种交互任务,在无监督条件下达到与有监督方法可比的性能。

研究背景与动机

理解 3D 场景是自主导航、增强现实等任务的基础。但现有方法面临几个关键挑战:

封闭词汇限制:传统 3D 场景图方法(如 3DSSG)依赖预定义标签集和有监督标注,无法泛化到新环境中的未见物体和关系

静态标注依赖:需要标注好的 RGB-D 数据和已知相机位姿,在实际开放世界场景中不切实际

2D-3D 投影误差:依赖 2D VLM 通过投影推断 3D 语义的方法会受遮挡、视角变化的影响

核心思路:利用 VLM 的开放词汇能力实现无标注的 3D 场景图生成,再将场景图编码为向量数据库,支持基于检索的多模态推理和交互。这样既免除了人工标注的需求,又能通过检索增强 LLM 的场景感知推理能力。

方法详解

整体框架

框架包含两大组件: 1. 3D 场景图生成器:从 RGB-D 序列增量构建语义和空间表示 2. 检索增强推理模块:将场景图转化为向量化知识库,支持文本/图像条件查询

关键设计

  1. 开放世界 3D 场景图生成

多帧物体检测: 从 RGB-D 帧序列中检测物体,每帧包含彩色图像 \(I\)、深度图 \(D\)、相机内参 \(K\) 和位姿 \(T_w^c \in SE(3)\)。检测到的物体用有向 3D 包围盒表示: $\(b_i = (c_i, \ell_i, R_i), \quad c_i \in \mathbb{R}^3, \ell_i \in \mathbb{R}_{>0}^3, R_i \in SO(3)\)$

检测置信度用 Beta 分布建模:\(\sigma_i \sim \text{Beta}(\alpha_i, \beta_i)\),自适应缩放因子 \(\tau\) 基于预测概率的熵动态调整。

利用掩码进行深度反投影获取 3D 点:\(X_j^c = K^{-1}[u_j\ v_j\ 1]D_j\),再变换到世界坐标系。

\(L\) 帧基于余弦相似度合并重复物体: $\(S(\tilde{f}_i, \tilde{f}_j) = \frac{\langle \tilde{f}_i, \tilde{f}_j \rangle}{\|\tilde{f}_i\| \|\tilde{f}_j\|}\)$ 其中特征经 Mahalanobis 白化预处理。

最佳视角选择与标注: 为每个物体选择最大化可见性和投影覆盖的最佳视角: $\(T_{w,i}^{c*} = \arg\max_{T_w^c \in \mathcal{P}} \left[A(\mathcal{P}(X_i^w, T_w^c)) \cdot V(X_i^w, T_w^c)^\gamma - \lambda D(T_{w,i}^c, T_w^c)\right]\)$ 然后使用 LLaVA 在最佳视角下对物体进行语义标注。

设计动机:最佳视角减少了遮挡和模糊,使 VLM 能给出更准确的开放词汇标注。

可靠物体过滤: 基于欧氏距离和 3D IoU 筛选有效物体对(\(d_{thresh} = 0.5m\)),控制后续关系推理的计算量。

语义关系提取: 使用 Qwen2-VL-72B 对每个有效物体对推断 top-5 语义谓词: $\(\mathcal{R}_{ij} = (o_i, r_{ij}, o_j), \quad r_{ij} \in \mathcal{C}_{edge}\)$ 过滤背景元素(地板、天花板),得到最终 3D 语义场景图。

  1. 检索增强语义推理

向量数据库构建: 将场景图重组为以物体标签为中心的"块"(chunk),每个块聚合该类物体的所有实例信息。通过语义编码器(CLIP/BERT/Text2Vec)映射到高维向量空间: $\(\boldsymbol{\zeta}_i = \phi(\boldsymbol{\eta}_i), \quad \mathcal{D} = \{(\boldsymbol{\zeta}_i, \boldsymbol{\eta}_i)\}_{i=1}^N\)$

基于接地的提示推理: 给定用户查询 \(q\),编码后进行 top-k 相似度检索: $\(\mathcal{E}_q = \text{Top-}k(\mathcal{D}, \boldsymbol{\xi}_q)\)$

检索到的场景信息与用户查询组合成结构化提示,送入 LLM(Qwen-2-72B-Instruct)进行接地推理。

  1. 四种场景交互任务

    • 任务 I:文本场景问答 — 基于场景图事实回答自然语言问题
    • 任务 II:文本到视觉定位 — 将文本查询接地到空间位置和最佳视图图像
    • 任务 III:多模态实例检索 — 支持文本/图像/混合查询的实例级搜索
    • 任务 IV:开放场景任务规划 — 将高层指令分解为可执行步骤序列

损失函数 / 训练策略

本方法为零样本推理框架,不涉及端到端训练,主要依赖预训练 VLM 的推理能力和检索机制。关键超参数包括: - 物体合并余弦相似度阈值 \(\tau_{merge}\) - 物体对距离阈值 \(d_{thresh} = 0.5m\) - 开放词汇标签匹配:BERT 嵌入余弦相似度阈值 0.95(物体)/ 0.9(谓词)

实验关键数据

主实验

3D 场景图生成(3DSSG 数据集)

方法 类型 Object R@1 Predicate R@1 Predicate R@3 Relation R@1 Relation R@3
3DSSG 封闭 0.82 0.83 0.85 0.63 0.63
MonoSSG 封闭 0.86 0.89 0.90 0.89 0.90
VL-SAT 封闭 0.82 0.94 0.94 0.87 0.88
Open3DSG 开放 0.65 0.81 0.81 0.70 0.72
BBQ 开放 0.59 0.61 0.61 0.68 0.68
OSU-3DSG (Ours) 开放 0.83 0.95 0.97 0.78 0.80

作为零样本方法,谓词预测超越所有封闭词汇方法(R@1 0.95 vs VL-SAT 0.94),远超开放词汇基线。

场景交互任务

任务 指标 OSU-3DSG GPT-4o Gemini ChatGLM
场景问答 准确率 0.84 0.82 0.80 0.72
任务规划 正确率 87.5% 72.9% 65.4% 58.7%
任务规划 可执行率 81.25% 78.2% 69.8% 62.3%

消融实验

语义关系提取器(SRE)过滤策略

IoU Distance 三元组数 Predicate R@1 Relation R@1 说明
291 0.95 0.94 无过滤,计算开销大
30 0.76 0.83 仅 IoU 过滤不足
11 0.85 0.75 仅距离过滤,三元组太少
34 0.87 0.78 最佳平衡

联合使用 IoU 和距离约束将候选三元组降至 34 个,在保持高召回的同时大幅减少了 VLM 推理成本。

关键发现

  • 零样本场景图生成可达到甚至超越有监督方法在谓词预测上的性能
  • 检索增强推理在场景问答上超过 GPT-4o,证明了结构化场景知识的价值
  • 最佳视角选择对物体识别准确性至关重要
  • 固定距离阈值(0.5m)可能不适用于所有场景密度和物体尺度

亮点与洞察

  1. 统一的开放世界 3D 理解框架:将场景图生成和多模态推理整合为一个一致的系统,覆盖从感知到规划的全链路
  2. 零样本超越有监督:利用大规模 VLM 的知识实现了在谓词预测上超越全监督方法的性能,展示了 VLM 零样本能力的巨大潜力
  3. 检索增强策略的优势:相比直接将场景信息塞入 LLM 提示,先检索相关部分再形成提示更高效、更准确
  4. 最佳视角选择机制:自动选择每个物体的最佳观察角度,减少遮挡和歧义,提高 VLM 标注质量

局限与展望

  • 物体对过滤的距离阈值(0.5m)为固定值,跨场景泛化性有待验证
  • 关系推理严重依赖 Qwen2-VL-72B 的推理能力,LLM 能力的上限即方法的上限
  • 视觉定位任务的绝对准确率较低(~0.23),3D 空间与文本的联合推理仍是开放挑战
  • 仅在室内场景验证,大规模室外场景的可扩展性未知
  • 任务规划缺乏与真实机器人执行的闭环验证

相关工作与启发

  • Open3DSG (2024):开放词汇 3D 场景图的先驱工作,但仍依赖标注 RGB-D 和固定位姿
  • BBQ (2024, Linok et al.):目标中心的开放世界场景图模型,为本文的开放词汇基线
  • ConceptGraphs:类似的 VLM 驱动 3D 场景图方法,但未结合检索增强推理
  • 启发:将 3D 场景理解转化为"构建知识库 + 检索增强推理"的范式,可推广到其他结构化场景理解任务

评分

  • 新颖性: ⭐⭐⭐⭐ (检索增强推理与 3D 场景图结合是较新的范式)
  • 实验充分度: ⭐⭐⭐⭐ (覆盖四种交互任务,但每个任务的评估规模较小)
  • 写作质量: ⭐⭐⭐⭐ (框架描述清晰,但公式较多,部分定义可简化)
  • 价值: ⭐⭐⭐⭐ (开放世界 3D 理解的重要方向,零样本性能令人鼓舞)

相关论文