6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting¶

会议: ICCV 2025
arXiv: 2412.01543
代码: 无公开代码
领域: 3D视觉 / 6D位姿估计
关键词: 6D Object Pose Estimation, Gaussian Splatting, Online Tracking, Model-Free, RGB-D

一句话总结¶

利用2D Gaussian Splatting的高效可微渲染能力，提出一种无需CAD模型的在线6D物体位姿估计与跟踪方法，通过联合优化高斯物体场和关键帧位姿，实现比BundleSDF快约5倍的速度同时保持可比精度。

背景与动机¶

基于模型的方法（如使用CAD模型进行特征匹配）虽然精度高，但需要预先准备CAD模型或标注参考图像，面对大量未知物体时扩展性差。
无模型方法如BundleSDF通过联合优化Neural Object Field和位姿图，取得了SOTA效果，但神经场训练极慢（每轮训练约6.7秒），导致实际跟踪频率仅约0.4Hz，难以满足实时应用需求。
核心动机：Gaussian Splatting基于光栅化的渲染方式比体渲染快得多，能否利用其高效性来替代神经辐射场，在保持精度的同时大幅提升6D位姿估计的速度？

核心问题¶

如何在单目RGB-D视频流中，无需CAD模型地实现实时6D物体位姿估计与3D重建的联合优化？具体挑战包括： 1. 粗位姿初始化误差会导致高斯场优化发散 2. 高斯粒子数量控制不稳定影响训练效率 3. 需要平衡速度与精度的trade-off

方法详解¶

整体框架¶

6DOPE-GS包含四个核心模块，以流水线方式处理RGB-D视频流：

粗位姿初始化（Coarse Pose Initialization）：
使用SAM2对目标物体进行分割与跟踪
用LoFTR（基于Transformer的密集特征匹配器）获取相邻帧的特征点对应关系
通过RANSAC+非线性最小二乘优化得到帧间粗略位姿
建立关键帧内存池，根据空间多样性决定是否将新帧加入
高斯物体场（Gaussian Object Field）：
基于2D Gaussian Splatting (2DGS)构建物体的视觉-几何模型
联合优化2D高斯参数和关键帧位姿
通过可微渲染的反向传播梯度同时更新高斯parameters和camera poses
动态关键帧选择（Dynamic Keyframe Selection）：基于空间覆盖度和重建置信度的关键帧过滤
在线位姿图优化（Online Pose Graph Optimization）：对后续新帧进行实时位姿更新

关键设计¶

① 选用2DGS而非3DGS： - 2DGS将每个高斯粒子坍缩为平面盘状surfel（z方向缩放设为0），拥有两个主轴和法线方向 - 额外引入深度扭曲和法线一致性约束，提供更精确的表面几何对齐 - 实验验证2DGS在位姿精度和重建质量上均优于3DGS

② 动态关键帧选择——两阶段过滤策略： - 空间覆盖最大化：在物体周围建立二十面体锚点，将关键帧按位姿聚类到最近锚点，每个聚类中选择物体mask最大的关键帧，确保稀疏视角下的最大信息覆盖 - 基于重建置信度的异常值剔除：计算每次迭代中重建损失的中位数绝对偏差（MAD），将偏差超过3倍MAD的视角标记为异常并移除。MAD相比均值/标准差对极端值更鲁棒

③ 基于不透明度百分位的自适应密度控制： - 传统3DGS的绝对阈值剪枝导致高斯数量剧烈波动，训练不稳定 - 本文每隔固定优化步数，裁剪不透明度处于底部5%百分位的高斯粒子，直到第95百分位的不透明度超过给定阈值 - 保留高质量高斯，剔除不重要的粒子，兼顾稳定性与效率 - 当位置梯度超阈值时触发高斯的分裂和克隆

④ 联合优化流程： - 高斯物体场收敛后，冻结2D高斯参数，单独精细化所有关键帧位姿 - 精细化后的位姿用于指导在线位姿图优化

损失函数 / 训练策略¶

渲染损失：RGB颜色重建损失 + 深度重建损失 + 法线一致性损失（2DGS自带）+ 深度扭曲损失
位姿优化损失：通过2DGS可微渲染的梯度反向传播到关键帧位姿参数，使用PyTorch自动微分
在线位姿图：基于逐像素稠密重投影误差的成对几何一致性优化

实验关键数据¶

YCBInEOAT数据集（机器人抓取场景，5个YCB物体，9个视频序列）： | 方法 | ADD-S(%) | ADD(%) | CD(cm) | 每帧耗时(s) | |------|----------|--------|--------|-------------| | BundleSDF | 92.82 | 84.28 | 0.53 | 0.82 | | BundleTrack | 92.54 | 84.91 | - | 0.21 | | 6DOPE-GS | 93.79 | 87.82 | 0.15 | 0.22 | | MonoGS(RGB-D) | 20.16 | 15.32 | 2.43 | 0.29 |

HO3D数据集（手-物交互场景，更具挑战性）： | 方法 | ADD-S(%) | ADD(%) | CD(cm) | 每帧耗时(s) | |------|----------|--------|--------|-------------| | BundleSDF | 94.86 | 89.56 | 0.58 | 2.10 | | BundleTrack | 93.96 | 77.75 | - | 0.29 | | 6DOPE-GS | 95.07 | 84.33 | 0.41 | 0.24 |

实时能力：可视化模式下3-4Hz，无GUI时4-5Hz
高斯模型约每8秒更新一次
硬件：RTX 4090 GPU + i9-12900KF CPU

消融实验要点¶

变体	ADD-S(%)	ADD(%)	CD(cm)
Ours (basic) - HO3D	93.52	80.25	0.44
w/o KF Selection	94.44	82.40	0.42
w/o Pruning（使用vanilla ADC）	92.48	80.87	0.44
Ours (3DGS)	92.51	79.49	0.47
Ours (final)	95.07	84.33	0.41

动态关键帧选择和百分位剪枝都带来了显著提升
2DGS明显优于3DGS（归因于3DGS缺少法线/深度正则化）
两个组件联合使用效果最佳

亮点¶

速度优势显著：相比BundleSDF实现约5倍加速（0.24s vs 2.1s每帧），首次实现基于高斯场的实时6D物体跟踪+重建（3.5Hz）
动态关键帧选择设计巧妙：二十面体锚点+MAD异常值检测，兼顾空间覆盖和鲁棒性
百分位剪枝简洁有效：用统计百分位代替绝对阈值，避免高斯数量剧烈波动的问题
选用2DGS而非3DGS的决策有理有据：surfel表示提供更好的表面几何约束
完整的实时系统验证：包含真实场景ZED2相机的实时演示

局限性 / 可改进方向¶

HO3D上ADD绝对分数仍低于BundleSDF（84.33 vs 89.56）：手遮挡导致监督信号不足，高斯优化受限
高斯光栅化的梯度计算不如神经场的可微光线投射精确：作者计划探索高斯表示的ray casting方法
Gaussian Object Field未直接集成到在线位姿图优化中：仅传递优化后的位姿，存在进一步耦合的空间
依赖SAM2的分割质量：分割失败会直接影响后续所有步骤
高斯模型更新频率受限（约8秒更新一次），对快速运动物体可能不够

与相关工作的对比¶

方法	模型需求	重建方式	速度	核心差异
BundleTrack	无模型	无重建	~10Hz	仅做位姿跟踪，无3D重建
BundleSDF	无模型	Neural SDF	~0.4Hz	神经场训练极慢
MonoGS	无模型	3DGS	~3Hz	场景级SLAM，物体级效果差
6DOPE-GS	无模型	2DGS	~4Hz	提出物体级高斯场优化，速度-精度平衡最优

启发与关联¶

2DGS vs 3DGS的选择：在需要精确表面几何的任务中（如位姿估计、机器人抓取），2DGS的surfel表示可能比3DGS更合适，因为它天然具有法线约束
百分位剪枝思路可推广到其他高斯场应用：用统计分布特征而非绝对阈值来控制高斯密度
关键帧选择的二十面体+MAD策略可迁移至其他需要视角选择的场景（如主动感知、NBV规划）
与SLAM领域的GS方法（SplaTAM、GS-SLAM等）形成互补：前者面向场景级，本文面向物体级

评分¶

新颖性: ⭐⭐⭐⭐ 将2DGS应用于物体级6D位姿估计与重建的联合优化是合理的创新，动态关键帧选择和百分位剪枝是有效的工程贡献
实验充分度: ⭐⭐⭐⭐ 在两个标准数据集上进行了全面对比和消融实验，包含实时系统演示，但缺少更多数据集的泛化验证
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详细，流程图直观，动机阐述充分
价值: ⭐⭐⭐⭐ 5倍加速在实际应用中意义重大，为机器人操作等实时场景提供了实用的无模型位姿估计方案