跳转至

FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images

会议: ICCV 2025
arXiv: 2507.19993
代码:
领域: 3D Vision / Scene Understanding
关键词: 3D Scene Graph, Real-time, Gaussian Distribution, RGB-D, Scene Understanding

一句话总结

提出FROSS方法,通过将2D场景图直接提升到3D空间并用高斯分布表示物体,实现了超实时(144 FPS)的在线3D语义场景图生成,无需精确点云重建。

研究背景与动机

现有痛点

现有痛点领域现状:3D语义场景图(SSG)将环境中的物体表示为节点、物体间关系表示为边,是机器人、AR等领域实现高层场景理解的关键数据结构。现有方法面临两大挑战:

计算开销大:主流方法依赖精确的点云重建和分割(如SLAM),需要大量计算资源

非增量处理:离线方法需要完整场景数据(点云或完整图像序列),无法适应开放世界的增量探索

核心观察:3D SSG提供的是高层语义理解,物体的精确位姿和形状信息并非必需。例如机器人规划只需相对空间关系,3D场景合成中SSG仅作为基础结构。这一观察启发了一种全新路线——跳过点云重建,直接从2D场景图提升到3D

方法详解

整体框架

FROSS包含四个核心模块: 1. RT-DETR目标检测:从RGB-D图像中检测物体 2. EGTR关系提取:利用RT-DETR的self-attention特征提取物体间关系,构建2D场景图 3. 2D→3D提升:将2D高斯分布反投影到3D空间,构建局部3D SSG 4. 全局SSG融合:通过高斯合并算法将局部SSG整合到全局SSG

关键设计

2D高斯表示:将检测框建模为2D均匀分布,均值为框中心,协方差矩阵为:

\[\Sigma_i^{2D} = \frac{1}{12} \begin{bmatrix} W_i^2 & 0 \\ 0 & H_i^2 \end{bmatrix}\]

3D反投影:利用相机内参K、旋转R和平移t将2D高斯映射到3D空间。深度维度的方差通过其他维度方差的均值来近似补充,解决了2D→3D投影中深度方差缺失的问题。

基于Hellinger距离的合并:对同类物体计算高斯分布间的Hellinger距离,低于阈值\(\delta_d=0.85\)的节点进行合并。合并采用加权融合:

\[\mu_k = \frac{w_i\mu_i + w_j\mu_j}{w_i + w_j}\]

权重反映检测频次,从多视角和空间位置检测到的物体获得更高权重,缓解视角偏差。关系预测通过多数投票确定。

损失函数/训练策略

  • 2D场景图模型(EGTR + RT-DETRv2-M)在3DSSG或Visual Genome数据集上训练
  • 物体置信度阈值0.7,每个2D场景图保留前10个关系
  • 主实验使用GT轨迹;消融实验验证了ORB-SLAM3估计轨迹的鲁棒性

实验关键数据

主实验 (表格)

方法 Rel. Recall Obj. Recall Pred. Recall mRecall Obj. 延迟(ms)
SGFN 22.0 51.6 27.5 37.7 161
Wu 23.3 53.8 28.4 43.8 191
Kim 9.1 59.0 7.1 51.0 310
FROSS 27.9 62.4 33.0 63.8 7

FROSS在关系召回率上比第二名提升19.7%,物体召回率提升16.0%,延迟仅7ms(比最快基线快23倍)。

消融实验 (表格)

设置 Rel. Recall Obj. Recall Pred. Recall
FROSS (预测2D SG) 27.9 62.4 33.0
FROSS (GT 2D SG) 55.8 88.6 56.0
FROSS (SLAM轨迹) 22.7 25.8 27.2
FROSS (GT轨迹) 22.3 26.1 27.8

关键发现

  1. 2D SG质量是瓶颈:使用GT 2D SG时性能翻倍,说明当前性能仅是下界
  2. 对轨迹估计误差鲁棒:使用SLAM轨迹与GT轨迹性能相当
  3. 合并阈值影响trade-off:低阈值保留更多物体(高Obj. Recall),高阈值促进关系聚合(高Rel. Recall)
  4. 运行时分析:FPS达144.09,其中合并算法仅占0.12ms

亮点与洞察

  1. 范式转变:跳过传统的点云重建管线,直接从2D场景图构建3D SSG,大幅简化流程
  2. 高斯表示的优雅性:用高斯分布近似物体位置和空间范围,既轻量又能有效支撑合并操作
  3. 深度方差补偿:2D→3D反投影时用其他维度方差均值补充缺失的深度方差,简单有效
  4. ReplicaSSG数据集:扩展Replica数据集加入关系标注,使用Visual Genome类别定义,支持零样本迁移

局限与展望

  1. 2D场景图质量限制上界:当前性能高度依赖2D SG模型的准确性
  2. 语义关系种类有限:实验仅使用7种谓词类别
  3. 深度方差假设简单:假设深度维度方差等于其他维度均值,对狭长物体可能不准确
  4. 未考虑动态场景:框架假设静态环境

相关工作与启发

  • SceneGraphFusion:多线程点云重建+分割实现实时SSG,但系统延迟大
  • EGTR:端到端关系提取器,利用目标检测的self-attention特征
  • RT-DETR:实时DETR检测器,为整个流水线的实时性奠定基础
  • 启发:高层语义任务不一定需要精确几何信息,适当的近似可以带来数量级的效率提升

评分

维度 分数 (1-5)
新颖性 4
技术深度 3.5
实验充分性 4
写作质量 4
实用性 4.5
总评 4

相关论文