EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis¶

会议: CVPR 2025
arXiv: 2503.20168
代码: https://xdimlab.github.io/EVolSplat/ (有)
领域: 自动驾驶 / 新视角合成
关键词: 3D高斯泼溅, 城市场景, 前馈重建, 稀疏3D卷积, 实时渲染

一句话总结¶

提出 EVolSplat，一个基于稀疏3D卷积的前馈城市场景3D高斯泼溅方法，通过全局统一体素预测高斯参数（而非像素对齐），结合遮挡感知的基于图像的渲染（IBR）着色，在 KITTI-360 上达到 23.26dB PSNR / 83.81 FPS。

领域现状：城市场景的新视角合成是自动驾驶仿真的核心需求。per-scene 优化方法（如 3DGS、Street Gaussians）需要每场景几十分钟训练；前馈方法（如 MVSplat）速度快但基于像素对齐的高斯预测在城市大场景中存在多视角不一致问题。

现有痛点：像素对齐方法将3D高斯关联到每个像素射线上，导致：（1）不同视角预测的高斯位置不一致，多视角融合时冲突；（2）远景和天空区域缺乏合理表示；（3）深度估计误差直接传递到高斯位置。

核心矛盾：前馈速度 vs 空间一致性——像素空间操作快但不一致，3D空间操作一致但密集体素计算成本高。

切入角度：用稀疏3D卷积在统一全局体素中预测高斯参数，只在有点云的位置分配计算资源。

核心 idea：稀疏3D-CNN 全局体素预测 + 遮挡感知IBR着色 + 半球背景高斯 = 一致且高效的城市场景新视角合成。

输入多视角图像+单目深度估计生成初始3D点云，构建稀疏体素网格。稀疏3D-CNN 提取几何特征，MLP 预测每个体素的高斯参数（位置偏移/缩放/旋转/不透明度）。颜色通过遮挡感知 IBR 从输入图像的2D纹理中查询获得。远景/天空用半球背景高斯建模。

稀疏3D-CNN 体素预测:
- 功能：在全局3D空间中一致地预测高斯参数
- 核心思路：将单目深度估计得到的3D点云体素化，用 MinkowskiNet 稀疏卷积提取特征并递归精化位置。MLP 预测位置偏移 \(\Delta p\)、缩放、旋转和不透明度。位置偏移修正深度估计误差
- 设计动机：与像素对齐方法不同，全局体素保证了多视角几何一致性，稀疏卷积只在有点云的位置计算，效率接近密集2D方法
遮挡感知基于图像的渲染（IBR）着色:
- 功能：从输入图像直接获取高斯颜色，而非网络预测
- 核心思路：将3D高斯中心投影回输入视角获取2D特征，用可见性图（渲染输入视角检查该高斯是否可见）过滤被遮挡的视角，用注意力机制融合多视角颜色
- 设计动机：网络预测颜色在城市场景中细节不足，IBR 保留了输入图像的高频纹理。遮挡可见性检查解决了大基线下的颜色不一致问题
半球背景高斯:
- 功能：建模远景和天空
- 核心思路：在场景外创建半球面分布的高斯，用MLP从方向向量预测球谐系数
- 设计动机：城市场景中天空和远处建筑占大量像素但缺乏深度信息，专门的背景建模避免了前景高斯被"浪费"在远景上

\(\mathcal{L} = (1-0.2)\mathcal{L}_1 + 0.2\mathcal{L}_{SSIM} + 0.1\mathcal{L}_{entropy}\)，熵正则化鼓励不透明度接近0或1（避免半透明伪影）。KITTI-360 上训练160个场景，每场景30对立体图像。

方法	PSNR↑	SSIM↑	LPIPS↓	FPS
MVSplat	21.22	0.695	0.246	-
EDUS	22.13	0.761	0.178	-
EVolSplat	23.26	0.797	0.179	83.81

Waymo 零样本泛化：PSNR 23.43, SSIM 0.786。