Sparfels: Fast Reconstruction from Sparse Unposed Imagery¶

会议: ICCV 2025
arXiv: 2505.02178
代码: 有
领域: 3D视觉
关键词: 稀疏视图重建, 无位姿重建, 2D高斯泼溅, MASt3R, 色彩方差正则化

一句话总结¶

提出Sparfels方法，将3D基础模型（MASt3R）与高效的测试时优化（2DGS）相结合，通过MASt3R提供初始化点云/相机和对应关系引导优化，并创新性地引入泼溅色彩方差损失，在3分钟内从稀疏无位姿图像实现SOTA几何重建。

研究背景与动机¶

从稀疏无标定图像进行3D几何重建是一个难度很高但极具实际价值的问题：

经典方法的困境：SfM/MVS管线需要大量重叠图像和精确标定；3DGS/2DGS等方法依赖COLMAP提供的精确位姿和初始点云，在稀疏无标定场景下完全失效

基础模型的机遇与局限：DUSt3R/MASt3R等大模型可以从少量图像推理相机位姿和粗糙3D结构，但精度和细节不足，无法独立用于新视图合成

现有稀疏视图方法的不足：多数方法依赖多种外部先验（单目深度、法线、预训练等），管线复杂且计算成本高

评估方法的问题：在无位姿设定下，传统的基于相机对齐的Chamfer距离评估不够可靠

Sparfels旨在"两个世界的最佳结合"：利用MASt3R提供强初始化，用2DGS进行高效精化。

方法详解¶

整体框架¶

给定少量无位姿彩色图像： 1. 初始化阶段：MASt3R生成全局对齐的点云、初始相机位姿和密集对应关系 2. 优化阶段：初始化bunale-adjusting 2DGS → 联合优化高斯参数和相机外参 3. 输出：通过TSDF算法从收敛的2DGS深度图中提取三角网格

关键设计¶

1. 场景初始化

全局几何对齐：构建图像连接图，通过MASt3R获得成对点图和对应，优化全局一致性的点图和相机参数
表面元初始化：对全局点云中每个点，PCA计算局部协方差矩阵，最小特征向量作为法线方向，构建局部坐标系\([\mathbf{u}, \mathbf{v}, \mathbf{n}]\)初始化2D高斯的朝向。这种法线感知的初始化对表面质量至关重要

2. 对应关系损失

利用MASt3R提供的密集像素对应关系，构建跨视图几何一致性约束：

\[\mathcal{L}_{corr} = w_{p_n,p_m} \rho(p_m - \pi(P_m^{-1}P_n\pi^{-1}(p_n, d_n)))\]

其中\(d_n\)为2DGS泼溅深度，\(\rho\)为Huber损失。该约束通过深度重投影误差引导相机优化，与InstantSplat等方法不同的是利用了MASt3R的对应而非仅靠光度损失。

3. 色彩方差正则化损失（核心创新）

从统计矩角度分析泼溅渲染：渲染颜色是沿射线的颜色期望\(C = \mathbb{E}_{t \sim p(t)}[c(t)]\)。为提高鲁棒性，最小化射线上的颜色方差：

\[\mathcal{L}_{var} = \mathbb{V}ar_{t \sim p(t)}[c(t)] = \mathbb{E}[c(t)^2] - C^2\]

实现上通过修改2DGS的CUDA核函数，在渲染颜色的同时渲染颜色平方，高效计算方差。减少方差可降低渲染不确定性，产生更清晰和多视图一致的重建。

损失函数 / 训练策略¶

总目标：\(\mathcal{L} = \lambda_{photo}\mathcal{L}_{photo} + \lambda_{corr}\mathcal{L}_{corr} + \lambda_{var}\mathcal{L}_{var}\)

\(\mathcal{L}_{photo}\)：标准L1 + SSIM + 2DGS几何正则（深度法线一致性+深度畸变）
\(\lambda_{photo}=1.0\)，\(\lambda_{corr}=5 \times 10^{-5}\)
\(\lambda_{var}\)：余弦退火调度从1.0衰减到0.0
优化迭代：DTU 1k次，其他2k-4k次；单阶段联合优化，无需多阶段策略
新视图测试：固定高斯参数，仅优化测试相机1k次

实验关键数据¶

主实验¶

DTU 3视图重建（Rel↓ / NC↑）：

方法	Rel↓ (均值)	NC↑ (均值)
MASt3R	7.34	0.830
UFORecon	42.77	0.371
SparseCraft	6.50	—
InstantSplat2DGS	5.73	—
Sparfels	4.82	—

Sparfels在15个场景中的Rel均值为4.82，大幅优于InstantSplat2DGS（5.73）和SparseCraft（6.50）。

新视图合成（Tanks&Temples + MVImgNet + MipNeRF360，3/6/12视图）： Sparfels在多个数据集上的NVS指标（PSNR/SSIM/LPIPS）以及相机位姿估计精度（ATE）均达到或超过SOTA。

消融实验¶

损失组件消融（DTU 3视图，Rel↓）：

配置	Photo	Corr	Var	Rel↓
基线	✓			5.73
+对应损失	✓	✓		5.21
+方差损失	✓		✓	5.35
完整	✓	✓	✓	4.82

对应关系损失和方差正则化分别贡献了约0.5和0.4的Rel改善，组合使用效果最佳。

关键发现¶

速度极快：平均不到3分钟完成重建（消费级GPU），远快于NeRF类方法（数小时）
单模型依赖：仅需MASt3R一个外部模型，无需加载额外深度/法线网络
MASt3R对应关系引导的相机优化比纯光度优化更准确（验证在ATE指标上）
色彩方差损失不仅改善定量指标，定性上也产生更清晰的网格细节
方差权重的余弦退火策略很关键：前期强正则化稳定训练，后期放松以恢复细节
法线感知的初始化对表面质量影响显著

亮点与洞察¶

色彩方差损失的统计视角：从分布鲁棒优化的角度推导方差正则化，理论上界是L1损失加方差项，提供了超越经验设计的理论支撑
高效的"嫁接"策略：不训练新模型，而是将MASt3R的多种能力（点云、相机、对应）一一"嫁接"到2DGS优化中，物尽其用
评估方法的改进：针对无位姿设定提出屏幕空间depth/normal评估，避免了不可靠的相机对齐
高效CUDA实现：方差计算通过修改泼溅核函数实现，增加的开销极小

局限与展望¶

极度稀疏（如2视图）时MASt3R初始化质量下降，重建精度受限
无纹理区域和重复纹理区域的对应关系可能不可靠
当前仅支持静态场景，未处理动态物体
TSDF网格提取步骤的分辨率和阈值需要手动调节
可进一步探索与更强基础模型（如更大的DUSt3R变体）的结合

评分¶

新颖性: ⭐⭐⭐⭐ （色彩方差损失是有理论支撑的新颖设计，整体管线也有创新）
实验充分度: ⭐⭐⭐⭐⭐ （5个数据集，3项任务，详细消融）
写作质量: ⭐⭐⭐⭐ （方法描述清晰，理论推导完整）
价值: ⭐⭐⭐⭐ （3分钟重建的效率优势明显，实用性强）