6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting¶
会议: ICCV 2025
arXiv: 2412.01543
代码: 无
领域: 自动驾驶
关键词: 6D位姿估计, 高斯溅射, 实时追踪, 3D重建, RGB-D
一句话总结¶
提出6DOPE-GS,一种利用2D高斯溅射(2DGS)联合优化6D物体位姿和3D重建的model-free在线追踪方法,通过动态关键帧选择和基于透明度百分位的密度控制实现5倍加速,同时保持SOTA精度。
研究背景与动机¶
6D物体位姿估计是AR、自动驾驶和机器人操作等领域的基础任务。现有方法主要分为两类:
Model-based方法:依赖CAD模型或参考图像,对未见物体扩展性差
Model-free方法:如BundleSDF,通过神经隐式场(Neural Object Field)联合优化位姿和重建,但计算开销极大(每帧2.1秒),难以用于实时场景
BundleSDF虽然报告near real-time位姿优化(约10Hz),但其神经场训练远未实时(每轮约6.7秒),整体追踪频率仅约0.4Hz。这严重限制了在动态场景(如手持物体操作)中的应用。
核心动机:利用高斯溅射(Gaussian Splatting)的高效可微渲染能力,替代慢速的神经隐式场训练,实现真正可在线运行的joint位姿估计与3D重建。
方法详解¶
整体框架¶
6DOPE-GS的流程分为几个阶段:
- 物体分割:使用SAM2在视频流中持续分割目标物体
- 特征匹配:使用LoFTR建立帧间点对应关系
- 粗位姿初始化:通过RANSAC计算初始位姿,建立关键帧池
- Gaussian Object Field联合优化:用2DGS联合优化关键帧位姿和物体重建
- 在线位姿图优化:利用优化后的关键帧位姿持续更新新帧的位姿
关键设计¶
1. Gaussian Object Field(高斯物体场)
采用2D高斯溅射(2DGS)而非3DGS进行物体建模: - 2DGS将每个高斯压缩为2D平面盘(surfel),z方向缩放为0 - 提供更精确的表面法线和深度估计 - 通过可微渲染将梯度回传到关键帧位姿参数,实现联合优化
2. 动态关键帧选择(Dynamic Keyframe Selection)
- 使用二十面体的顶点和面心作为锚点,近似球面均匀分布的观测方向
- 将初始关键帧按位姿聚类到各锚点,选择每个聚类中物体mask最大的帧
- 在联合优化过程中,基于重建误差的中位绝对偏差(MAD)过滤异常关键帧
- 超过3倍MAD的视角被判定为异常并剔除
3. 基于透明度百分位的自适应密度控制
- 每隔固定优化步数,剪枝透明度在底部5%的高斯粒子
- 持续剪枝直到第95百分位的透明度超过阈值
- 相比原始3DGS的绝对阈值剪枝,该策略更稳定,避免高斯数量的剧烈波动
损失函数 / 训练策略¶
- 渲染损失:RGB重建损失 + 深度重建损失 + 法线一致性损失
- 关键帧位姿通过自动微分(PyTorch)从渲染损失中获取梯度并更新
- Gaussian Object Field收敛后冻结高斯参数,再统一优化所有关键帧位姿
- 在线位姿图优化使用dense pixel-wise re-projection误差
实验关键数据¶
主实验¶
YCBInEOAT数据集:
| 方法 | ADD-S(%) | ADD(%) | CD(cm) | 每帧时间(s) |
|---|---|---|---|---|
| BundleTrack | 92.54 | 84.91 | - | 0.21 |
| BundleSDF | 92.82 | 84.28 | 0.53 | 0.82 |
| MonoGS(RGB-D) | 20.16 | 15.32 | 2.43 | 0.29 |
| 6DOPE-GS | 93.79 | 87.82 | 0.15 | 0.22 |
HO3D数据集:
| 方法 | ADD-S(%) | ADD(%) | CD(cm) | 每帧时间(s) |
|---|---|---|---|---|
| BundleSDF | 94.86 | 89.56 | 0.58 | 2.10 |
| BundleTrack | 93.96 | 77.75 | - | 0.29 |
| 6DOPE-GS | 95.07 | 84.33 | 0.41 | 0.24 |
消融实验¶
HO3D消融:
| 配置 | ADD-S(%) | ADD(%) | CD(cm) |
|---|---|---|---|
| Ours (basic) | 93.52 | 80.25 | 0.44 |
| w/o KF Selection | 94.44 | 82.40 | 0.42 |
| w/o Pruning | 92.48 | 80.87 | 0.44 |
| Ours (3DGS) | 92.51 | 79.49 | 0.47 |
| Ours (final, 2DGS) | 95.07 | 84.33 | 0.41 |
关键发现¶
- 相比BundleSDF,6DOPE-GS实现约5倍加速(0.22s vs 0.82s),同时ADD-S更高
- 2DGS明显优于3DGS(ADD-S 95.07 vs 92.51),归因于2DGS的法线和深度正则化使高斯贴合物体表面
- 动态关键帧选择和百分位剪枝都是不可或缺的:去掉任一组件性能均下降
- MonoGS在物体级追踪上表现很差,说明场景级SLAM方法不能直接用于物体追踪
- 实际实时演示中追踪频率可达3.5-5Hz,高斯场每8秒更新一次
亮点与洞察¶
- 首个将Gaussian Splatting用于model-free 6D物体追踪和重建的方法,证明了GS在物体级SLAM中的巨大潜力
- 动态关键帧选择中的二十面体锚点策略很巧妙,确保了观测视角的空间覆盖率
- 基于MAD的异常关键帧过滤比简单阈值更鲁棒,属于工程上的好实践
- 整体思路是将scene-level GS-SLAM的思想下沉到object-level,开辟了新方向
局限与展望¶
- 在HO3D的ADD绝对得分上仍低于BundleSDF,手部遮挡导致的监督信号不足是主因
- 高斯栅格化在大旋转/平面外旋转上梯度计算不如可微光线投射精确
- 优化后的2D高斯未直接用于在线位姿图优化(仅用了优化后的位姿),耦合性不足
- 依赖SAM2的分割质量,严重遮挡下可能失败
- 目前仅支持单物体追踪,多物体场景需要进一步扩展
相关工作与启发¶
- 从BundleTrack/BundleSDF继承了关键帧位姿图优化的框架,但用GS替代了慢速的Neural Field
- 与MonoGS等GS-SLAM方法的区别:6DOPE-GS是object-centric而非scene-level
- 2DGS的surfel表示对精确深度和法线建模的优势在此得到验证
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将2DGS应用于model-free 6D物体追踪,关键帧选择和密度控制设计精巧
- 实验充分度: ⭐⭐⭐⭐ — 两个数据集、详细消融、实时演示,但缺少更大规模benchmark
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,方法描述完整
- 价值: ⭐⭐⭐⭐ — 实时model-free追踪有很高实用价值,推动GS在机器人领域的应用
相关论文¶
- [ICCV 2025] AD-GS: Object-Aware B-Spline Gaussian Splatting for Self-Supervised Autonomous Driving
- [ICCV 2025] GS-Occ3D: Scaling Vision-only Occupancy Reconstruction with Gaussian Splatting
- [ICCV 2025] 3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views
- [ICCV 2025] GS-LIVM: Real-Time Photo-Realistic LiDAR-Inertial-Visual Mapping with Gaussian Splatting
- [ICCV 2025] GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow