跳转至

S3R-GS: Streamlining the Pipeline for Large-Scale Street Scene Reconstruction

论文信息

  • 会议: ICCV 2025
  • arXiv: 2503.08217
  • 领域: 3D视觉
  • 关键词: 3D Gaussian Splatting, 大规模街景重建, 自动驾驶, 动态场景, 计算效率

一句话总结

S3R-GS 通过识别传统街景重建管线中的三大计算冗余(不必要的局部-全局坐标变换、过多的3D-2D投影、低效的远距离内容渲染),提出实例特定投影、时序可见性过滤和自适应LOD策略,将重建时间降至竞争方法的20%-50%,同时保持SOTA渲染质量。

研究背景与动机

大规模街景重建在自动驾驶等领域至关重要,但现有 3DGS 方法应用于大规模场景时面临关键问题:场景规模增大时,每视角重建成本急速攀升

分析传统管线后,作者识别出三大计算冗余:

不必要的局部-全局变换:每帧渲染时需要将每个动态目体的 Gaussians 从局部坐标系变换到全局坐标系,包含大量冗余矩阵乘法

过量的3D-2D投影:所有 Gaussians 都被投影到图像平面,但绝大多数在当前视锥外,投影计算完全浪费

低效的远距离内容渲染:对所有可见 Gaussians 一视同仁地执行 α-blending,远距离的细小 Gaussians 对画质贡献微小却占用大量计算

此外,现有方法依赖 3D 真值边界框 分离动态/静态目标,但 3D 标注获取困难,限制了实际应用。

方法详解

整体框架

S3R-GS 分为场景建模和场景重建两阶段,重点优化重建管线。

关键设计一:实例特定投影(Instance-Specific Projection)

传统方法先将动态目标 Gaussians 从局部变换到全局,再统一投影到相机平面。S3R-GS 跳过全局变换,直接为每个目标预计算实例特定相机参数:

\[W_{t,i} = W_t \cdot W_{t,i2g}\]

渲染时根据 Gaussian 的实例 ID 选择对应相机即可,一次矩阵乘法替代两次变换。

关键设计二:时序可见性分离(Temporal Separation)

为每个 Gaussian 分配时序可见性 \(v = (v_s, v_e)\) 和生命周期 \(l = (l_s, l_e)\)。渲染时间 \(t\) 时仅选择满足 \(t_s \leq t \leq t_e\) 的 Gaussians 进行投影,大幅减少无效的 3D-2D 投影。

可见性通过渲染后的实际可见掩码 \(M_t\) 动态更新:

\[l_{s,i} = \min(l_{s,i}, t),\quad l_{e,i} = \max(l_{e,i}, t)\]
\[t_s = l_s - 0.1,\quad t_e = l_e + 0.1\]

关键设计三:自适应LOD(Adaptive Level-of-Detail)

对投影后2D 尺度低于阈值 \(r\) 的远距离 Gaussians:

  1. 概率性剔除:根据深度概率性丢弃,距离越远丢弃概率越高
\[p = p_{max} + (p_{max} - 10^{-2}) \cdot \min(0, \frac{d-D}{D})\]
  1. 噪声偏移:对保留的远距离 Gaussians 添加与深度相关的位置噪声,获得周围平均颜色
  2. 距离感知神经场:查询颜色时引入深度作为输入,使网络自动学习不同 LOD 的颜色变化

2D框场景分解

替代 3D 框的方案:利用 2D 框 + SAM 获取目标掩码,投影 LiDAR 点云获得粗略 3D 轨迹 \(TXYZ \in \mathbb{R}^{T \times 3}\)。引入 NeuralODE 学习连续运动轨迹:

\[\frac{d\mathbf{z}(t)}{dt} = f(\mathbf{z}(t), t, c)\]

其中 \(c\) 为实例嵌入,\(\mathbf{z}(t) = [\Delta XYZ_t + XYZ_t, R_t]\),实现平滑的姿态估计。

BEV 语义初始化增强

针对 LiDAR 无法覆盖的高层建筑,在 BEV 网格中沿 z 轴补充初始化点,增强场景完整性。

实验

主实验:Argoverse 2 大规模街景

方法 平均 PSNR↑ 平均 SSIM↑ 平均 LPIPS↓ 重建时间↓
SUDS 20.84 0.662 0.601 -
ML-NSG 21.15 0.680 0.555 49.10h
4DGF 24.97 0.772 0.447 54.39h
S3R-GS 25.68 0.780 0.435 26.71h

重建质量超越所有方法的同时,时间降至 4DGF 的不到一半。

消融实验:各组件贡献(KITTI)

组件 PSNR 训练时间
Baseline (4DGF) 基准 基准
+ 实例特定投影 显著↓
+ 时序可见性 进一步↓
+ 自适应 LOD 略↑ 进一步↓
+ 2D 分解 略↓

实例特定投影和时序可见性是加速的主要贡献者,自适应 LOD 在保质的同时进一步加速。

关键发现

  • 在长序列场景(KITTI 全长)中,加速效果更为显著,S3R-GS 仅需竞争方法约 20% 的时间
  • 2D 框分解虽然精度略低于 3D 框,但大幅提升了方法的实际可用性
  • BEV 语义增强有效改善了高层建筑的重建质量

亮点与洞察

  1. 系统性分析:不是提新模块,而是深入审视管线中的每一步计算冗余
  2. 线性可扩展:优化后每视角重建成本不随场景规模剧烈增长
  3. 实用导向:2D 框替代 3D 框的设计使方法能应用于 in-the-wild 场景
  4. 即插即用:各优化策略相互独立,可单独应用于其他街景 3DGS 方法

局限性

  • 2D 分解 + NeuralODE 在极高速运动或频繁遮挡时可能不够鲁棒
  • 自适应 LOD 的概率性剔除可能导致远距离区域的渲染不稳定
  • 需要 LiDAR 点云进行初始化,无法完全无传感器运行

相关工作

  • DrivingGaussian / StreetGaussian / HUGS / 4DGF:3DGS 街景重建方法
  • EmerNeRF / NSG:NeRF 街景重建方法
  • NeuralODE:连续时间建模框架

评分

  • 创新性: ⭐⭐⭐⭐ — 系统性优化管线而非堆叠模块
  • 实用性: ⭐⭐⭐⭐⭐ — 显著加速且提升质量,2D框降低标注门槛
  • 实验完整度: ⭐⭐⭐⭐ — 三个数据集全面验证,有消融
  • 写作质量: ⭐⭐⭐⭐ — 问题分析到位,方案简洁有效

相关论文