跳转至

6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting

会议: ICCV 2025
arXiv: 2412.01543
代码: 无
领域: 自动驾驶
关键词: 6D位姿估计, 高斯溅射, 实时追踪, 3D重建, RGB-D

一句话总结

提出6DOPE-GS,一种利用2D高斯溅射(2DGS)联合优化6D物体位姿和3D重建的model-free在线追踪方法,通过动态关键帧选择和基于透明度百分位的密度控制实现5倍加速,同时保持SOTA精度。

研究背景与动机

6D物体位姿估计是AR、自动驾驶和机器人操作等领域的基础任务。现有方法主要分为两类:

Model-based方法:依赖CAD模型或参考图像,对未见物体扩展性差

Model-free方法:如BundleSDF,通过神经隐式场(Neural Object Field)联合优化位姿和重建,但计算开销极大(每帧2.1秒),难以用于实时场景

BundleSDF虽然报告near real-time位姿优化(约10Hz),但其神经场训练远未实时(每轮约6.7秒),整体追踪频率仅约0.4Hz。这严重限制了在动态场景(如手持物体操作)中的应用。

核心动机:利用高斯溅射(Gaussian Splatting)的高效可微渲染能力,替代慢速的神经隐式场训练,实现真正可在线运行的joint位姿估计与3D重建。

方法详解

整体框架

6DOPE-GS的流程分为几个阶段:

  1. 物体分割:使用SAM2在视频流中持续分割目标物体
  2. 特征匹配:使用LoFTR建立帧间点对应关系
  3. 粗位姿初始化:通过RANSAC计算初始位姿,建立关键帧池
  4. Gaussian Object Field联合优化:用2DGS联合优化关键帧位姿和物体重建
  5. 在线位姿图优化:利用优化后的关键帧位姿持续更新新帧的位姿

关键设计

1. Gaussian Object Field(高斯物体场)

采用2D高斯溅射(2DGS)而非3DGS进行物体建模: - 2DGS将每个高斯压缩为2D平面盘(surfel),z方向缩放为0 - 提供更精确的表面法线和深度估计 - 通过可微渲染将梯度回传到关键帧位姿参数,实现联合优化

2. 动态关键帧选择(Dynamic Keyframe Selection)

  • 使用二十面体的顶点和面心作为锚点,近似球面均匀分布的观测方向
  • 将初始关键帧按位姿聚类到各锚点,选择每个聚类中物体mask最大的帧
  • 在联合优化过程中,基于重建误差的中位绝对偏差(MAD)过滤异常关键帧
  • 超过3倍MAD的视角被判定为异常并剔除

3. 基于透明度百分位的自适应密度控制

  • 每隔固定优化步数,剪枝透明度在底部5%的高斯粒子
  • 持续剪枝直到第95百分位的透明度超过阈值
  • 相比原始3DGS的绝对阈值剪枝,该策略更稳定,避免高斯数量的剧烈波动

损失函数 / 训练策略

  • 渲染损失:RGB重建损失 + 深度重建损失 + 法线一致性损失
  • 关键帧位姿通过自动微分(PyTorch)从渲染损失中获取梯度并更新
  • Gaussian Object Field收敛后冻结高斯参数,再统一优化所有关键帧位姿
  • 在线位姿图优化使用dense pixel-wise re-projection误差

实验关键数据

主实验

YCBInEOAT数据集:

方法 ADD-S(%) ADD(%) CD(cm) 每帧时间(s)
BundleTrack 92.54 84.91 - 0.21
BundleSDF 92.82 84.28 0.53 0.82
MonoGS(RGB-D) 20.16 15.32 2.43 0.29
6DOPE-GS 93.79 87.82 0.15 0.22

HO3D数据集:

方法 ADD-S(%) ADD(%) CD(cm) 每帧时间(s)
BundleSDF 94.86 89.56 0.58 2.10
BundleTrack 93.96 77.75 - 0.29
6DOPE-GS 95.07 84.33 0.41 0.24

消融实验

HO3D消融:

配置 ADD-S(%) ADD(%) CD(cm)
Ours (basic) 93.52 80.25 0.44
w/o KF Selection 94.44 82.40 0.42
w/o Pruning 92.48 80.87 0.44
Ours (3DGS) 92.51 79.49 0.47
Ours (final, 2DGS) 95.07 84.33 0.41

关键发现

  1. 相比BundleSDF,6DOPE-GS实现约5倍加速(0.22s vs 0.82s),同时ADD-S更高
  2. 2DGS明显优于3DGS(ADD-S 95.07 vs 92.51),归因于2DGS的法线和深度正则化使高斯贴合物体表面
  3. 动态关键帧选择和百分位剪枝都是不可或缺的:去掉任一组件性能均下降
  4. MonoGS在物体级追踪上表现很差,说明场景级SLAM方法不能直接用于物体追踪
  5. 实际实时演示中追踪频率可达3.5-5Hz,高斯场每8秒更新一次

亮点与洞察

  • 首个将Gaussian Splatting用于model-free 6D物体追踪和重建的方法,证明了GS在物体级SLAM中的巨大潜力
  • 动态关键帧选择中的二十面体锚点策略很巧妙,确保了观测视角的空间覆盖率
  • 基于MAD的异常关键帧过滤比简单阈值更鲁棒,属于工程上的好实践
  • 整体思路是将scene-level GS-SLAM的思想下沉到object-level,开辟了新方向

局限与展望

  1. 在HO3D的ADD绝对得分上仍低于BundleSDF,手部遮挡导致的监督信号不足是主因
  2. 高斯栅格化在大旋转/平面外旋转上梯度计算不如可微光线投射精确
  3. 优化后的2D高斯未直接用于在线位姿图优化(仅用了优化后的位姿),耦合性不足
  4. 依赖SAM2的分割质量,严重遮挡下可能失败
  5. 目前仅支持单物体追踪,多物体场景需要进一步扩展

相关工作与启发

  • 从BundleTrack/BundleSDF继承了关键帧位姿图优化的框架,但用GS替代了慢速的Neural Field
  • 与MonoGS等GS-SLAM方法的区别:6DOPE-GS是object-centric而非scene-level
  • 2DGS的surfel表示对精确深度和法线建模的优势在此得到验证

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将2DGS应用于model-free 6D物体追踪,关键帧选择和密度控制设计精巧
  • 实验充分度: ⭐⭐⭐⭐ — 两个数据集、详细消融、实时演示,但缺少更大规模benchmark
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,方法描述完整
  • 价值: ⭐⭐⭐⭐ — 实时model-free追踪有很高实用价值,推动GS在机器人领域的应用

相关论文