SGS-SLAM: Semantic Gaussian Splatting for Neural Dense SLAM¶

会议: ECCV 2024
arXiv: 2402.03246
代码: GitHub
领域: 3D视觉
关键词: SLAM, 3D高斯溅射, 语义分割, 稠密重建, 实时渲染

一句话总结¶

提出SGS-SLAM，首个基于Gaussian Splatting的语义视觉SLAM系统，通过多通道优化融合外观、几何和语义特征，在相机姿态估计、地图重建和语义分割方面均达到SOTA。

研究背景与动机¶

核心矛盾¶

核心矛盾：领域现状：现有的NeRF-based SLAM方法（如NICE-SLAM、Co-SLAM）使用MLP作为隐式表示，存在三个核心问题：(1) 物体边缘过度平滑，缺乏精细细节；(2) 难以解耦物体表示，阻碍场景编辑；(3) 灾难性遗忘，新场景会损害已学模型。同时，现有的高斯SLAM方法（如SplaTAM）不具备语义理解能力。

方法详解¶

整体框架¶

SGS-SLAM使用各向同性3D高斯表示场景，每个高斯携带位置、半径、不透明度、RGB颜色和语义颜色共三个通道。系统包含跟踪（tracking）和建图（mapping）两个核心过程。

关键设计¶

多通道高斯表示: 在标准高斯参数基础上增加语义颜色通道\(s_i = [r_i, b_i, g_i]^T\)，通过与颜色和深度相同的体渲染公式渲染2D语义图。

语义引导关键帧选择: 两级筛选策略——(1) 几何重叠比过滤：将采样高斯投影到关键帧视角，计算重叠率\(\eta\)，低于阈值则剔除；(2) 语义过滤：剔除语义图mIoU过高的关键帧，优先选择不同视角的关键帧。引入基于时间戳的不确定性权重\(\mathcal{U}(t) = e^{-\tau t}\)。

多通道联合优化: 跟踪损失同时包含深度L1、颜色L1和语义L1三个通道；建图损失使用加权SSIM损失处理颜色和语义图像。

损失函数¶

跟踪损失: \(\mathcal{L}_{tracking} = \lambda_D|D^{GT} - D| + \lambda_C|C^{GT} - C| + \lambda_S|S^{GT} - S|\)
建图损失: \(\mathcal{L}_{mapping} = \mathcal{U}_t(\lambda_D|D^{GT} - D| + \lambda_C\mathcal{L}_C + \lambda_S\mathcal{L}_S)\)
其中\(\mathcal{L}_C\)和\(\mathcal{L}_S\)均采用L1+SSIM的混合损失

实验关键数据¶

主实验¶

Replica数据集上渲染质量对比（8个场景平均）：

方法	PSNR↑	SSIM↑	LPIPS↓	Depth L1 (cm)↓	ATE RMSE (cm)↓
NICE-SLAM	24.42	0.809	0.233	1.903	2.503
Co-SLAM	30.24	0.939	0.252	1.513	1.059
ESLAM	29.08	0.929	0.336	1.180	0.630
SplaTAM	33.98	0.969	0.099	0.525	0.454
SGS-SLAM	34.66	0.973	0.096	0.356	0.412

语义分割实验¶

Replica数据集上语义分割精度（mIoU%）：

方法	平均mIoU↑	Room0	Room1	Room2	Office0
NIDS-SLAM	82.37	82.45	84.08	76.99	85.94
DNS-SLAM	84.77	88.32	84.90	81.20	84.66
SNI-SLAM	87.41	88.42	87.43	86.16	87.63
SGS-SLAM	>90	-	-	-	-

SGS-SLAM在语义分割上超越所有NeRF-based语义SLAM方法10%以上。

关键发现¶

深度L1误差比SplaTAM降低约32%（0.356 vs 0.525），说明语义信息有助于几何重建
多通道优化策略使跟踪和建图互相增益
显式高斯表示天然支持物体级场景编辑操作

亮点与洞察¶

语义特征损失有效弥补了传统深度和颜色损失在物体优化方面的不足
直接在高斯上附加语义通道非常优雅，避免了NeRF方法中复杂的多级模型设计
语义引导的关键帧选择策略有效防止了累积误差导致的重建错误

局限与展望¶

依赖2D语义先验（数据集提供或off-the-shelf模型）
各向同性高斯的假设可能限制复杂场景的表达能力
未在大规模场景中验证可扩展性

评分¶

新颖性: ⭐⭐⭐⭐
实用性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐