4D Gaussian Splatting SLAM¶

会议: ICCV 2025
arXiv: 2503.16710
代码: https://github.com/yanyan-li/4DGS-SLAM (有)
领域: 3D视觉 / SLAM
关键词: 4D高斯, 动态场景SLAM, 光流渲染, 稀疏控制点, RGB-D

一句话总结¶

提出首个完整的4D Gaussian Splatting SLAM系统，在动态场景中同时进行相机位姿跟踪和4D高斯辐射场重建——将高斯原语分为静态/动态集合，通过稀疏控制点+MLP建模动态物体运动，并创新性地渲染2D光流图监督动态高斯学习。

背景与动机¶

现有GS-SLAM方法（SplaTAM、MonoGS、Gaussian-SLAM）主要假设静态场景。在动态场景中，主流策略是检测并移除动态物体（如用语义分割），仅重建静态环境。这导致：(1) 动态物体区域留"空洞"；(2) 动态信息被完全丢弃，无法支持下游交互需求。虽然有D3DGS等动态高斯方法，但它们需要预先给定相机位姿，不适用于在线SLAM场景。

核心问题¶

如何在未知动态环境中，从RGB-D序列增量式地同时实现准确的相机位姿估计和高质量的4D（含时间维度）高斯辐射场重建？

方法详解¶

整体框架¶

三模块架构：(1) 初始化：用YOLOv9生成运动蒙版，将高斯分为静态集 \(\mathcal{G}_{st}\) 和动态集 \(\mathcal{G}_{dy}\)，并在动态区域初始化稀疏控制点；(2) 跟踪：仅用静态高斯渲染做位姿估计（排除动态干扰）；(3) 4D映射：联合优化高斯属性、相机位姿、动态变形网络，通过光流约束学习动态运动。

关键设计¶

静态/动态高斯分离: 每个高斯增加属性 \(dy\) 标记动态性。跟踪时仅渲染静态高斯→不受动态物体干扰。映射时分别优化静态重建和动态运动。关键帧选择考虑运动蒙版变化——即使相机不动，动态变化大也触发新关键帧。
稀疏控制点+MLP变形网络: 受SC-GS启发，在动态区域初始化稀疏控制点，用MLP \(\Psi(P_k, t) \to [R_t, T_t]\) 预测每个控制点的时变6-DoF变换。通过KNN+高斯RBF插值得到每个动态高斯的稠密变换——避免了逐高斯学习运动的高昂开销。
2D光流图渲染监督: 核心创新——将动态高斯在相邻时刻的位置投影到当前相机平面得到两组2D坐标，其差值 \(dx\) 通过alpha-blending渲染为光流图 \(F(p)\)。与RAFT预估的光流做L1监督（前向+后向）。这提供了跨帧一致的运动约束，大幅提升动态重建质量。

损失函数 / 训练策略¶

跟踪损失：\(L_t = \sum_p \mathcal{M}(\lambda L_1(C) + (1-\lambda)L_1(D))\)（运动蒙版过滤动态区域）。映射损失：\(L_{mapping} = \lambda L_1(C) + (1-\lambda)L_1(D) + \lambda_{flow}\mathcal{L}_{flow} + W_1 \text{ARAP} + W_2 E_{iso}\)。两阶段映射：Stage 1仅优化位姿+动态网络（高斯冻结，动态区域权重加倍）；Stage 2全部联合优化。最后全局颜色精化1500步（D-SSIM+L1+ARAP）。RTX 3090单卡。

实验关键数据¶

位姿估计 (ATE cm↓): | 方法 | BONN (avg 9seq) | TUM (avg 6seq) | |------|---------------|---------------| | MonoGS | 33.1 | 15.8 | | SplaTAM | 56.8 | 62.2 | | RoDyn-SLAM | 7.9 | 5.1 | | Ours | 3.6 | 1.8 |

渲染质量 (BONN avg PSNR/SSIM/LPIPS): | 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | |------|-------|-------|--------| | MonoGS | 17.74 | 0.608 | 0.382 | | SplaTAM | 19.40 | 0.757 | 0.241 | | SC-GS | 20.78 | 0.657 | 0.396 | | Ours | 22.46 | 0.786 | 0.228 |

消融实验要点¶

光流损失+分离高斯: 同时使用两者PSNR最高（synchronous: 23.25 vs. 仅分离18.37 vs. 仅光流22.87）
映射策略: 3窗口帧+5重叠帧+2全局随机帧的组合最优
静态GS-SLAM方法在高动态场景中ATE退化10-50倍（BONN sit_half序列MonoGS 54.5cm vs. Ours 8.9cm）

亮点¶

首个完整的4D GS-SLAM系统——同时跟踪+重建动态场景，不丢弃动态物体
光流渲染监督是关键创新——从3D高斯运动自然导出2D光流，与RAFT估计做交叉验证
ATE 3.6cm（BONN）/ 1.8cm（TUM）远超静态GS-SLAM和NeRF动态SLAM
渲染质量在动态区域提升显著——静态方法在动态物体区域产生大量伪影

局限性 / 可改进方向¶

依赖YOLOv9做运动蒙版——对未知类别动态物体可能失败
需要预指定某些序列动态初始化帧——完全自动检测有待改进
仅在室内RGB-D场景验证——室外/单目场景的扩展需解决深度缺失问题
动态高斯不能在线增删——新出现的动态物体无法被正确表示

与相关工作的对比¶

vs. MonoGS/SplaTAM/Gaussian-SLAM: 这些静态GS-SLAM在动态场景中位姿严重漂移；本文通过分离+屏蔽解决
vs. RoDyn-SLAM: NeRF-based动态SLAM，位姿精度接近但渲染质量和效率不如GS方案
vs. DGS-SLAM/DG-SLAM: 这些非静态GS-SLAM仅移除动态物体；本文显式建模动态+渲染4D场景
vs. SC-GS/D3DGS: 动态GS方法需要预先给定位姿；本文在线增量估计

启发与关联¶

从高斯运动推导光流的思路可扩展到视频生成/编辑中的运动约束
静态/动态分离+变形网络的框架可用于动态场景的语义化表示
SLAM中的4D建图为下游机器人交互（如抓取运动中物体）提供了可能

评分¶

新颖性: ⭐⭐⭐⭐ 4D GS-SLAM是自然且必要的扩展，光流渲染监督是亮点
实验充分度: ⭐⭐⭐⭐ TUM+BONN双数据集、多baseline对比、消融完整，但缺少大规模场景
写作质量: ⭐⭐⭐ 方法描述清晰但组织有改进空间（实验表格位于方法节内）
价值: ⭐⭐⭐⭐ 填补了4D GS-SLAM的空白，对动态场景理解和机器人应用有重要意义