跳转至

4D Gaussian Splatting SLAM

会议: ICCV 2025
arXiv: 2503.16710
代码: https://github.com/yanyan-li/4DGS-SLAM (有)
领域: 3D视觉 / SLAM
关键词: 4D高斯, 动态场景SLAM, 光流渲染, 稀疏控制点, RGB-D

一句话总结

提出首个完整的4D Gaussian Splatting SLAM系统,在动态场景中同时进行相机位姿跟踪和4D高斯辐射场重建——将高斯原语分为静态/动态集合,通过稀疏控制点+MLP建模动态物体运动,并创新性地渲染2D光流图监督动态高斯学习。

背景与动机

现有GS-SLAM方法(SplaTAM、MonoGS、Gaussian-SLAM)主要假设静态场景。在动态场景中,主流策略是检测并移除动态物体(如用语义分割),仅重建静态环境。这导致:(1) 动态物体区域留"空洞";(2) 动态信息被完全丢弃,无法支持下游交互需求。虽然有D3DGS等动态高斯方法,但它们需要预先给定相机位姿,不适用于在线SLAM场景。

核心问题

如何在未知动态环境中,从RGB-D序列增量式地同时实现准确的相机位姿估计和高质量的4D(含时间维度)高斯辐射场重建?

方法详解

整体框架

三模块架构:(1) 初始化:用YOLOv9生成运动蒙版,将高斯分为静态集 \(\mathcal{G}_{st}\) 和动态集 \(\mathcal{G}_{dy}\),并在动态区域初始化稀疏控制点;(2) 跟踪:仅用静态高斯渲染做位姿估计(排除动态干扰);(3) 4D映射:联合优化高斯属性、相机位姿、动态变形网络,通过光流约束学习动态运动。

关键设计

  1. 静态/动态高斯分离: 每个高斯增加属性 \(dy\) 标记动态性。跟踪时仅渲染静态高斯→不受动态物体干扰。映射时分别优化静态重建和动态运动。关键帧选择考虑运动蒙版变化——即使相机不动,动态变化大也触发新关键帧。

  2. 稀疏控制点+MLP变形网络: 受SC-GS启发,在动态区域初始化稀疏控制点,用MLP \(\Psi(P_k, t) \to [R_t, T_t]\) 预测每个控制点的时变6-DoF变换。通过KNN+高斯RBF插值得到每个动态高斯的稠密变换——避免了逐高斯学习运动的高昂开销。

  3. 2D光流图渲染监督: 核心创新——将动态高斯在相邻时刻的位置投影到当前相机平面得到两组2D坐标,其差值 \(dx\) 通过alpha-blending渲染为光流图 \(F(p)\)。与RAFT预估的光流做L1监督(前向+后向)。这提供了跨帧一致的运动约束,大幅提升动态重建质量。

损失函数 / 训练策略

跟踪损失:\(L_t = \sum_p \mathcal{M}(\lambda L_1(C) + (1-\lambda)L_1(D))\)(运动蒙版过滤动态区域)。 映射损失:\(L_{mapping} = \lambda L_1(C) + (1-\lambda)L_1(D) + \lambda_{flow}\mathcal{L}_{flow} + W_1 \text{ARAP} + W_2 E_{iso}\)。 两阶段映射:Stage 1仅优化位姿+动态网络(高斯冻结,动态区域权重加倍);Stage 2全部联合优化。最后全局颜色精化1500步(D-SSIM+L1+ARAP)。RTX 3090单卡。

实验关键数据

位姿估计 (ATE cm↓): | 方法 | BONN (avg 9seq) | TUM (avg 6seq) | |------|---------------|---------------| | MonoGS | 33.1 | 15.8 | | SplaTAM | 56.8 | 62.2 | | RoDyn-SLAM | 7.9 | 5.1 | | Ours | 3.6 | 1.8 |

渲染质量 (BONN avg PSNR/SSIM/LPIPS): | 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | |------|-------|-------|--------| | MonoGS | 17.74 | 0.608 | 0.382 | | SplaTAM | 19.40 | 0.757 | 0.241 | | SC-GS | 20.78 | 0.657 | 0.396 | | Ours | 22.46 | 0.786 | 0.228 |

消融实验要点

  • 光流损失+分离高斯: 同时使用两者PSNR最高(synchronous: 23.25 vs. 仅分离18.37 vs. 仅光流22.87)
  • 映射策略: 3窗口帧+5重叠帧+2全局随机帧的组合最优
  • 静态GS-SLAM方法在高动态场景中ATE退化10-50倍(BONN sit_half序列MonoGS 54.5cm vs. Ours 8.9cm)

亮点

  • 首个完整的4D GS-SLAM系统——同时跟踪+重建动态场景,不丢弃动态物体
  • 光流渲染监督是关键创新——从3D高斯运动自然导出2D光流,与RAFT估计做交叉验证
  • ATE 3.6cm(BONN)/ 1.8cm(TUM)远超静态GS-SLAM和NeRF动态SLAM
  • 渲染质量在动态区域提升显著——静态方法在动态物体区域产生大量伪影

局限性 / 可改进方向

  • 依赖YOLOv9做运动蒙版——对未知类别动态物体可能失败
  • 需要预指定某些序列动态初始化帧——完全自动检测有待改进
  • 仅在室内RGB-D场景验证——室外/单目场景的扩展需解决深度缺失问题
  • 动态高斯不能在线增删——新出现的动态物体无法被正确表示

与相关工作的对比

  • vs. MonoGS/SplaTAM/Gaussian-SLAM: 这些静态GS-SLAM在动态场景中位姿严重漂移;本文通过分离+屏蔽解决
  • vs. RoDyn-SLAM: NeRF-based动态SLAM,位姿精度接近但渲染质量和效率不如GS方案
  • vs. DGS-SLAM/DG-SLAM: 这些非静态GS-SLAM仅移除动态物体;本文显式建模动态+渲染4D场景
  • vs. SC-GS/D3DGS: 动态GS方法需要预先给定位姿;本文在线增量估计

启发与关联

  • 从高斯运动推导光流的思路可扩展到视频生成/编辑中的运动约束
  • 静态/动态分离+变形网络的框架可用于动态场景的语义化表示
  • SLAM中的4D建图为下游机器人交互(如抓取运动中物体)提供了可能

评分

  • 新颖性: ⭐⭐⭐⭐ 4D GS-SLAM是自然且必要的扩展,光流渲染监督是亮点
  • 实验充分度: ⭐⭐⭐⭐ TUM+BONN双数据集、多baseline对比、消融完整,但缺少大规模场景
  • 写作质量: ⭐⭐⭐ 方法描述清晰但组织有改进空间(实验表格位于方法节内)
  • 价值: ⭐⭐⭐⭐ 填补了4D GS-SLAM的空白,对动态场景理解和机器人应用有重要意义