FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images¶
会议: ICCV 2025
arXiv: 2507.19993
代码: 有
领域: 3D Vision / Scene Understanding
关键词: 3D Scene Graph, Real-time, Gaussian Distribution, RGB-D, Scene Understanding
一句话总结¶
提出FROSS方法,通过将2D场景图直接提升到3D空间并用高斯分布表示物体,实现了超实时(144 FPS)的在线3D语义场景图生成,无需精确点云重建。
研究背景与动机¶
现有痛点¶
现有痛点:领域现状:3D语义场景图(SSG)将环境中的物体表示为节点、物体间关系表示为边,是机器人、AR等领域实现高层场景理解的关键数据结构。现有方法面临两大挑战:
计算开销大:主流方法依赖精确的点云重建和分割(如SLAM),需要大量计算资源
非增量处理:离线方法需要完整场景数据(点云或完整图像序列),无法适应开放世界的增量探索
核心观察:3D SSG提供的是高层语义理解,物体的精确位姿和形状信息并非必需。例如机器人规划只需相对空间关系,3D场景合成中SSG仅作为基础结构。这一观察启发了一种全新路线——跳过点云重建,直接从2D场景图提升到3D。
方法详解¶
整体框架¶
FROSS包含四个核心模块: 1. RT-DETR目标检测:从RGB-D图像中检测物体 2. EGTR关系提取:利用RT-DETR的self-attention特征提取物体间关系,构建2D场景图 3. 2D→3D提升:将2D高斯分布反投影到3D空间,构建局部3D SSG 4. 全局SSG融合:通过高斯合并算法将局部SSG整合到全局SSG
关键设计¶
2D高斯表示:将检测框建模为2D均匀分布,均值为框中心,协方差矩阵为:
3D反投影:利用相机内参K、旋转R和平移t将2D高斯映射到3D空间。深度维度的方差通过其他维度方差的均值来近似补充,解决了2D→3D投影中深度方差缺失的问题。
基于Hellinger距离的合并:对同类物体计算高斯分布间的Hellinger距离,低于阈值\(\delta_d=0.85\)的节点进行合并。合并采用加权融合:
权重反映检测频次,从多视角和空间位置检测到的物体获得更高权重,缓解视角偏差。关系预测通过多数投票确定。
损失函数/训练策略¶
- 2D场景图模型(EGTR + RT-DETRv2-M)在3DSSG或Visual Genome数据集上训练
- 物体置信度阈值0.7,每个2D场景图保留前10个关系
- 主实验使用GT轨迹;消融实验验证了ORB-SLAM3估计轨迹的鲁棒性
实验关键数据¶
主实验 (表格)¶
| 方法 | Rel. Recall | Obj. Recall | Pred. Recall | mRecall Obj. | 延迟(ms) |
|---|---|---|---|---|---|
| SGFN | 22.0 | 51.6 | 27.5 | 37.7 | 161 |
| Wu | 23.3 | 53.8 | 28.4 | 43.8 | 191 |
| Kim | 9.1 | 59.0 | 7.1 | 51.0 | 310 |
| FROSS | 27.9 | 62.4 | 33.0 | 63.8 | 7 |
FROSS在关系召回率上比第二名提升19.7%,物体召回率提升16.0%,延迟仅7ms(比最快基线快23倍)。
消融实验 (表格)¶
| 设置 | Rel. Recall | Obj. Recall | Pred. Recall |
|---|---|---|---|
| FROSS (预测2D SG) | 27.9 | 62.4 | 33.0 |
| FROSS (GT 2D SG) | 55.8 | 88.6 | 56.0 |
| FROSS (SLAM轨迹) | 22.7 | 25.8 | 27.2 |
| FROSS (GT轨迹) | 22.3 | 26.1 | 27.8 |
关键发现¶
- 2D SG质量是瓶颈:使用GT 2D SG时性能翻倍,说明当前性能仅是下界
- 对轨迹估计误差鲁棒:使用SLAM轨迹与GT轨迹性能相当
- 合并阈值影响trade-off:低阈值保留更多物体(高Obj. Recall),高阈值促进关系聚合(高Rel. Recall)
- 运行时分析:FPS达144.09,其中合并算法仅占0.12ms
亮点与洞察¶
- 范式转变:跳过传统的点云重建管线,直接从2D场景图构建3D SSG,大幅简化流程
- 高斯表示的优雅性:用高斯分布近似物体位置和空间范围,既轻量又能有效支撑合并操作
- 深度方差补偿:2D→3D反投影时用其他维度方差均值补充缺失的深度方差,简单有效
- ReplicaSSG数据集:扩展Replica数据集加入关系标注,使用Visual Genome类别定义,支持零样本迁移
局限与展望¶
- 2D场景图质量限制上界:当前性能高度依赖2D SG模型的准确性
- 语义关系种类有限:实验仅使用7种谓词类别
- 深度方差假设简单:假设深度维度方差等于其他维度均值,对狭长物体可能不准确
- 未考虑动态场景:框架假设静态环境
相关工作与启发¶
- SceneGraphFusion:多线程点云重建+分割实现实时SSG,但系统延迟大
- EGTR:端到端关系提取器,利用目标检测的self-attention特征
- RT-DETR:实时DETR检测器,为整个流水线的实时性奠定基础
- 启发:高层语义任务不一定需要精确几何信息,适当的近似可以带来数量级的效率提升
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 新颖性 | 4 |
| 技术深度 | 3.5 |
| 实验充分性 | 4 |
| 写作质量 | 4 |
| 实用性 | 4.5 |
| 总评 | 4 |
相关论文¶
- [CVPR 2025] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos
- [ICCV 2025] SpatialSplat: Efficient Semantic 3D from Sparse Unposed Images
- [ICCV 2025] 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
- [ICCV 2025] Unified Category-Level Object Detection and Pose Estimation from RGB Images using 3D Prototypes
- [ICCV 2025] 3D Test-time Adaptation via Graph Spectral Driven Point Shift