MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images¶

会议: ECCV 2024
arXiv: 2403.14627
代码: GitHub
领域: 3D视觉
关键词: 3D Gaussian Splatting, 前馈式重建, 代价体, 稀疏视角, 新视角合成

一句话总结¶

提出MVSplat，通过plane-sweep构建代价体（cost volume）来精确定位Gaussian中心，以极少参数量（pixelSplat的1/10）和最快推理速度（22fps）实现了稀疏视角前馈式3D Gaussian预测的SOTA。

研究背景与动机¶

领域现状: 从稀疏视角（低至2张图）前馈式重建3D场景是近期热门方向。NeRF-based方法（pixelNeRF、MuRF）需要昂贵的体渲染采样，速度慢。3DGS凭借光栅化渲染天然避免了体采样开销，近期pixelSplat等开始探索前馈式3DGS。

现有痛点: pixelSplat虽然引入了epipolar Transformer学习跨视角特征，但仍然是从图像特征直接回归概率深度分布——这种从特征到深度的映射本质上是模糊且不可靠的，导致几何质量差、存在大量浮动Gaussians。为了获得合理几何需要额外50K步深度正则化微调。此外pixelSplat有125M参数，较重。

核心矛盾: 精确定位3D Gaussian中心是高质量渲染的关键，但from-feature-to-depth的数据驱动回归方式难以提供可靠的几何感知。需要更具几何感知的深度估计方式。

本文目标: 设计一个轻量高效的前馈模型，从稀疏多视角图像直接预测高质量3D Gaussians。

切入角度: 引入经典多视角立体视觉（MVS）中的代价体（cost volume），通过特征匹配而非特征回归来估计深度，将问题从"从特征猜深度"变为"从匹配找深度"。

核心 idea: 用plane-sweep代价体编码的跨视角特征匹配信息来定位Gaussian中心，比直接回归概率深度更可靠、更轻量。

方法详解¶

整体框架¶

MVSplat的管线：(1) 用CNN+Transformer提取多视角交互感知特征\(\{\boldsymbol{F}^i\}\)；(2) 通过plane-sweep在逆深度空间均匀采样\(D\)个深度候选，构建每个视角的代价体\(\boldsymbol{C}^i \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times D}\)；(3) U-Net细化代价体并预测深度图；(4) 深度图反投影得到Gaussian中心，同时并行预测opacity、covariance和球谐颜色；(5) 用3DGS光栅化渲染新视角，仅用RGB photometric loss端到端训练。

关键设计¶

代价体构建（Cost Volume Construction）: 对于视角\(i\)，将其他视角\(j\)的特征按深度候选\(d_m\)进行单应性warp：

\[\boldsymbol{F}_{d_m}^{j \to i} = \mathcal{W}(\boldsymbol{F}^j, \boldsymbol{P}^i, \boldsymbol{P}^j, d_m)\]

然后计算点积相似度得到correlation：

\[\boldsymbol{C}_{d_m}^i = \frac{\boldsymbol{F}^i \cdot \boldsymbol{F}_{d_m}^{j \to i}}{\sqrt{C}}\]

堆叠\(D\)个correlation得到代价体\(\boldsymbol{C}^i = [\boldsymbol{C}_{d_1}^i, \ldots, \boldsymbol{C}_{d_D}^i]\)。多于两个视角时对correlation做像素级平均，使模型可接受任意数量输入。设计动机：代价体捕捉的是特征间相对相似度，不依赖特征绝对尺度，天然具有跨数据集泛化性。

代价体细化（Cost Volume Refinement）: 一个轻量2D U-Net以Transformer特征和代价体的拼接为输入，输出残差\(\Delta\boldsymbol{C}^i\)：

\[\tilde{\boldsymbol{C}}^i = \boldsymbol{C}^i + \Delta\boldsymbol{C}^i\]

在U-Net最低分辨率层注入3层跨视角注意力来交换不同视角代价体的信息，跨视角注意力不依赖视角数量。最终通过CNN upsampler将代价体上采样到全分辨率\(\hat{\boldsymbol{C}}^i \in \mathbb{R}^{H \times W \times D}\)。

深度估计: 对细化后的代价体沿深度维softmax归一化，然后对所有深度候选加权平均：

\[\boldsymbol{V}^i = \text{softmax}(\hat{\boldsymbol{C}}^i) \boldsymbol{G}\]

其中\(\boldsymbol{G} = [d_1, \ldots, d_D]\)是深度候选值。另有轻量U-Net做深度残差细化。

Gaussian参数预测: (a) 中心\(\mu\): 直接将深度图反投影到3D世界坐标，多视角点云简单union；(b) opacity \(\alpha\): softmax匹配分布的最大值表示匹配置信度，通过两层卷积映射为opacity；(c) covariance和color: 从拼接的图像特征+代价体+原始图像用两层卷积预测。每个像素预测1个Gaussian（pixelSplat为3个），总Gaussian数为\(H \times W \times K\)。

损失函数 / 训练策略¶

\(\ell_2\) + 0.05 × LPIPS 的线性组合。不需要任何深度GT监督。在单个A100上训练300K iterations。代价体采样128个深度候选。使用Swin Transformer的local window attention提高效率。

实验关键数据¶

主实验¶

RealEstate10K + ACID 新视角合成:

方法	参数(M)	时间(s)	RE10K PSNR↑	RE10K LPIPS↓	ACID PSNR↑	ACID LPIPS↓
pixelNeRF	28.2	5.299	20.43	0.550	20.97	0.533
MuRF	5.3	0.186	26.10	0.143	28.09	0.155
pixelSplat	125.4	0.104	25.89	0.142	28.14	0.150
MVSplat	12.0	0.044	26.39	0.128	28.25	0.144

MVSplat用1/10参数量、2倍以上速度超越pixelSplat。

消融实验¶

跨数据集泛化（RE10K训练→ACID/DTU测试）:

方法	ACID PSNR↑	ACID LPIPS↓	DTU PSNR↑	DTU LPIPS↓
pixelSplat	27.64	0.160	12.89	0.560
MVSplat	28.15	0.147	13.94	0.385

在源域到DTU的大域差场景下，MVSplat的LPIPS改善31%，证明代价体的特征不变性带来的泛化优势。

关键发现¶

pixelSplat的底层3D结构包含大量浮动Gaussians，尽管其2D渲染看起来合理；MVSplat的Guarantee中心质量远高于pixelSplat
使用代价体后不需要额外的深度正则化微调即可获得高质量几何
代价体捕捉的是相对相关性→特征分布改变时（跨数据集）仍然有效
每像素仅1个Gaussian（vs pixelSplat的3个），渲染也更快

亮点与洞察¶

从回归到匹配的范式转变: 将深度估计从"数据驱动回归"转为"基于匹配的推断"，本质上降低了学习难度
经典MVS智慧的回归: 在神经网络时代重新证明了代价体这一经典立体视觉工具的价值，且无需GT深度监督
极致高效: 12M参数实现SOTA，22fps推理，实用性极强
设计的一致性: opacity从匹配置信度推导，Gaussian中心从匹配深度推导，所有关键量都来自同一个代价体

局限与展望¶

代价体要求已知相机内外参，无法处理unknown camera setting
\(256 \times 256\)分辨率限制，高分辨率时代价体内存占用增大
仅验证2-3个输入视角，更多视角时代价体计算的扩展性需评估
无纹理区域的代价体仍有歧义，虽然U-Net可部分修正但存在上限
未探索时序一致性，难以直接应用于视频场景

评分¶

新颖性: ⭐⭐⭐⭐ — 将MVS代价体引入前馈式3DGS，思路清晰且有效
实验充分度: ⭐⭐⭐⭐⭐ — 三个数据集+跨数据集泛化+几何可视化+详细消融
写作质量: ⭐⭐⭐⭐⭐ — 论文结构精炼，对比分析非常清楚
价值: ⭐⭐⭐⭐⭐ — 显著推进了前馈式3DGS的实用性，代码开源