SpatialSplat: Efficient Semantic 3D from Sparse Unposed Images¶

会议: ICCV 2025
arXiv: 2505.23044
代码: GitHub
领域: 3D视觉
关键词: 语义3DGS, 前馈重建, 无位姿, 双场架构, Gaussian选择

一句话总结¶

提出SpatialSplat,通过双场语义表示和选择性Gaussian机制,从稀疏无位姿图像前馈生成紧凑的语义3D Gaussian,将表示参数量减少60%同时超越SOTA方法。

研究背景与动机¶

语义感知3D重建从2D图像获取语义3D结构,是机器人、自动驾驶和VR/AR的基础技术。现有前馈3DGS方法在引入语义时面临两个核心问题:

逐像素Gaussian预测的冗余 — 重叠区域产生大量冗余基元,带来不必要的内存开销

高维语义特征的压缩损失 — 512维+语言特征必须压缩到64-128维才能附加到每个基元,导致不可逆信息损失

现有方法(如LSM)简单地将压缩特征附加到每个像素级Gaussian,既不高效也不准确。

关键观察¶

冗余基元共享相似的几何和外观,可直接从图像特征识别(无需几何先验)

逐基元语义并非必要 — 同一实例内的Gaussian具有高度语义一致性,粗粒度语义+细粒度实例信息就足够

方法详解¶

双场语义表示¶

将密集语义特征场分解为两个组件:

细粒度实例感知辐射场 $\mathcal{F}_I$: - 每个Gaussian附带低维实例特征 $\boldsymbol{f}_I \in \mathbb{R}^N$ 和重要性分数 $\boldsymbol{\beta}$ - 由2D基础模型(SAM等)引导学习

粗粒度语义特征场 $\mathcal{F}_S$: - 以 $S$ 倍降采样的分辨率预测,基元数量大幅减少 - 保留未压缩的语义特征 $\boldsymbol{f}_S \in \mathbb{R}^M$ - 少量基元即可编码完整语义(因同实例内语义一致)

选择性Gaussian机制 (SGM)¶

为每个基元预测重要性分数 $\beta_i$,乘以不透明度修改alpha blending:

\[\boldsymbol{c} = \sum_{i=1}^n \boldsymbol{c}_i \boldsymbol{\alpha}_i \boldsymbol{\beta}_i \prod_{j=1}^{i-1}(1 - \boldsymbol{\alpha}_j \boldsymbol{\beta}_j)\]

使用类Leaky ReLU的阈值处理: $$\beta_i = \begin{cases} \beta_i & \text{if } \beta_i > \tau \\ \beta_i \times 10^{-3} & \text{if } \beta_i < \tau \end{cases}$$

BCE损失+L1正则推动 $\beta_i$ 向0或1二值化: $$\mathcal{L}_I = \mathcal{L}_{BCE}(\boldsymbol{S}, \hat{\boldsymbol{S}}) + \frac{1}{\|\boldsymbol{S}\|}\sum_{\beta_i \in \boldsymbol{S}} \beta_i$$

3D几何预测¶

纯ViT编码器-解码器,不需要几何先验。通过注入相机内参解决尺度歧义(无需深度监督)。

实验¶

ScanNet语义3D重建¶

方法	前馈	Source mIoU↑	Target mIoU↑	PSNR↑	SSIM↑	LPIPS↓
L-Seg	✗	0.5541	0.5558	N/A	N/A	N/A
NeRF-DFF	✗	0.5381	0.5137	22.49	0.765	0.283
Feature-3DGS	✗	0.4992	0.3223	17.96	0.581	0.489
NoPoSplat	✔	N/A	N/A	25.70	0.816	0.188
LSM	✔	0.5141	0.5104	24.12	0.796	0.253
SpatialSplat-Lite	✔	0.5272	0.5265	25.45	0.803	0.204
SpatialSplat	✔	0.5593	0.5587	25.46	0.805	0.205

参数效率¶

SpatialSplat仅使用baseline 40%的表示参数,同时在所有指标上超越。

关键发现¶

双场架构以40%的参数达到更优的语义分割和渲染质量
选择性Gaussian机制有效识别并剔除冗余基元,无需几何先验
粗粒度未压缩语义 > 细粒度压缩语义,证明了"不压缩但少量"优于"压缩但所有"的策略
首次同时学习语义和实例先验的前馈3DGS框架

亮点与洞察¶

语义表示的解耦设计 — "粗语义+细实例"的分解思路新颖且高效
不压缩的反直觉选择 — 证明保留完整语义特征用少量基元比压缩后广撒网更有效
从图像识别冗余 — 绕过了需要精确相机外参才能检测重叠的限制
无3D监督 — 完全从2D基础模型引导学习

局限性¶

粗粒度语义场的降采样率S需预设
对实例边界的分割精度受2D基础模型质量制约
重要性分数的阈值τ需调参

评分¶

新颖性: ⭐⭐⭐⭐ (双场架构+选择性Gaussian)
技术深度: ⭐⭐⭐⭐ (SGM设计+损失函数完整)
实验充分度: ⭐⭐⭐⭐ (与多类方法全面对比)
实用价值: ⭐⭐⭐⭐⭐ (60%参数减少,实际部署价值高)