跳转至

SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction

会议: AAAI 2026
arXiv: 2511.14633
代码: 项目页面
领域: 3D视觉
关键词: 稀疏视角, 表面重建, 3D高斯溅射, 立体匹配先验, 伪视角一致性

一句话总结

提出SparseSurf方法,通过立体几何-纹理对齐(SGTA)和伪特征增强几何一致性(PFEGC),在稀疏视角下同时实现高精度表面重建和高质量新视角合成。

研究背景与动机

问题定义

从稀疏视角图像中重建精确的3D表面几何是一个长期挑战。3D Gaussian Splatting在多视角表面重建中取得了很好效果,但当输入视角稀疏时,优化过程容易过拟合,导致重建质量严重下降。

核心动机

现有稀疏视角方法面临的关键矛盾:

扁平化高斯与过拟合的矛盾:为了更好贴合表面几何,FatesGS等方法将高斯压扁为2D平面。但扁平化带来的高各向异性在稀疏视角下会加剧过拟合风险——虽然在训练视角上看起来正常,但在新视角上会出现严重退化

单目深度先验的尺度模糊问题:现有方法常用单目深度估计器提供几何约束,但单目深度存在尺度模糊且缺乏置信度估计,在稀疏视角下容易引入噪声,导致多视角不一致

渲染质量与几何精度的脱节:现有NVS方法注重渲染质量但几何约束松散,而聚焦表面重建的方法往往牺牲渲染质量

核心洞察

  • 立体几何先验可以提供度量级(metric)的监督信号,比单目深度先验更可靠
  • 随着训练过程中渲染质量提升,立体渲染的质量也会提升,从而提供更准确的先验,形成良性循环
  • 结合训练视角和伪视角的特征一致性,可以有效缓解扁平化高斯带来的过拟合

方法详解

整体框架

SparseSurf包含两个核心模块: 1. 立体几何-纹理对齐(Stereo Geometry-Texture Alignment):利用立体匹配生成度量级深度和法线先验 2. 伪特征增强几何一致性(Pseudo-Feature Enhanced Geometry Consistency):通过训练视角和伪视角的多视角特征一致性缓解过拟合

关键设计

1. 立体几何-纹理对齐(SGTA)

功能:从渲染的立体图像对中获取度量级深度和法线先验,用于监督高斯的几何结构。

核心思路: - 对每个训练视角 \(\mathbf{P}_i\),在水平方向生成一个基线为 \(b\) 的立体视角 - 渲染该立体视角的图像,与原视角图像配对输入预训练的立体匹配网络(Foundation Stereo) - 从视差图转换得到深度 \(\mathcal{D}^*\),再计算法线 \(\mathcal{N}^*\)

关键公式

立体几何监督损失由四部分组成:

\[\mathcal{L}_{stereo} = (\lambda_d \mathcal{L}_{depth} + \lambda_n \mathcal{L}_{normal} + \lambda_{nd} \mathcal{L}_{nd}) \mathcal{M}^* + \lambda_s \mathcal{L}_{smooth}\]
  • \(\mathcal{L}_{depth} = \mathcal{L}_1(D, \mathcal{D}^*)\):深度L1损失
  • \(\mathcal{L}_{normal} = 1 - \text{Cosine}(N, \mathcal{N}^*)\):渲染法线与立体法线的余弦对齐
  • \(\mathcal{L}_{nd} = 1 - \text{Cosine}(N_d, \mathcal{N}^*)\):深度导出法线与立体法线的对齐
  • \(\mathcal{L}_{smooth}\):边缘感知拉普拉斯平滑损失
  • \(\mathcal{M}^*\):通过立体视角一致性检查产生的可靠性掩码

设计动机: - 立体匹配输出的是度量级深度,避免了单目深度的尺度模糊 - 一致性掩码过滤不可靠像素,防止渲染噪声导致的错误监督 - 训练过程中定期(每300次迭代)更新立体先验,形成渲染→先验的良性循环

2. 伪特征增强几何一致性(PFEGC)

功能:通过伪视角的多视角特征一致性约束,缓解稀疏视角下扁平化高斯的过拟合问题。

核心思路:分为两个子模块——伪视角特征一致性和训练视角特征对齐。

伪视角特征一致性: 1. 使用冻结的特征提取器(Vis-MVSNet)从GT图像提取特征 \(\mathcal{F}^*\) 2. 为每个高斯增加8维特征属性,通过特征蒸馏损失学习:\(\mathcal{L}_f = 1 - \text{Cosine}(F, \mathcal{F}^*)\) 3. 在随机伪视角 \(\mathcal{V}_p\) 渲染特征图,通过双向warp验证特征一致性 4. 采用patch级余弦相似度(而非pixel级),避免伪视角的低保真区域污染训练视角特征:

\[\mathcal{L}_{pseudo} = \sum_{i,j} \mathcal{M}_{feat}^{(i,j)} [1 - \text{Cosine}(\bar{\mathcal{F}}_{p2t}^{(i,j)}, \bar{\mathcal{F}}_r^{(i,j)})]\]

训练视角特征对齐: - 在Ground Truth训练视角之间执行pixel级特征一致性:\(\mathcal{L}_{train} = 1 - \text{Cosine}(\mathcal{F}_{s2t}, \mathcal{F}_s)\)

设计动机: - 伪视角可以补充稀疏训练视角的不足,但伪视角渲染质量可能较差 - 使用patch级而非pixel级一致性可抵抗伪视角的渲染噪声 - 二进制置信度掩码 \(\mathcal{M}_{feat}\) 进一步过滤不可靠区域 - 训练视角之间的pixel级约束提供更强的几何一致性保障

损失函数 / 训练策略

总体损失函数(7000次迭代,单张RTX 3090):

\[\mathcal{L} = \mathcal{L}_c + \mathcal{L}_{stereo} + \lambda_1 \mathcal{L}_f + \lambda_2 \mathcal{L}_{pseudo} + \lambda_3 \mathcal{L}_{train} + \lambda_4 \mathcal{L}_s + \lambda_5 \mathcal{L}_{dn}\]

各损失的启用时机不同: - \(\mathcal{L}_c, \mathcal{L}_s, \mathcal{L}_f\):从第0次迭代开始 - \(\mathcal{L}_{stereo}\):从第500次迭代开始(等渲染质量提升后) - \(\mathcal{L}_{pseudo}, \mathcal{L}_{dn}\):从第3000次迭代开始

实验关键数据

主实验

DTU数据集表面重建(Chamfer Distance↓,little-overlap设置,3视角)

方法 类型 平均CD↓
COLMAP 传统MVS 2.61
NeuSurf 神经隐式 1.35
FatesGS GS表面重建 1.37
UFORecon 泛化隐式 1.40
SparseSurf 本文 1.05

DTU数据集表面重建(large-overlap设置,3视角)

方法 平均CD↓
FatesGS 0.92
NeuSurf 0.99
UFORecon 0.99
SparseSurf 0.89

DTU稀疏视角新视角合成(NVS)

方法 PSNR↑ SSIM↑ LPIPS↓ AVGE↓
CoR-GS 19.21 0.853 0.119 0.082
Binocular3DGS 20.71 0.862 0.111 -
NexusGS 20.21 0.869 0.102 0.071
SparseSurf 21.31 0.886 0.089 0.067

消融实验

在DTU数据集(large-overlap设置)上的消融:

配置 Accuracy↓ Completion↓ Average↓ 说明
Baseline (无额外损失) 1.318 2.302 1.810 仅RGB监督
+ \(\mathcal{L}_{stereo}\) 0.822 1.612 1.217 立体深度大幅改善
+ \(\mathcal{L}_{pseudo}\) 0.610 1.327 0.969 伪视角进一步缓解过拟合
+ \(\mathcal{L}_{train}\) (完整) 0.533 1.239 0.886 训练视角对齐增强鲁棒性

关键发现

  1. 立体深度贡献最大:将平均CD从1.810降至1.217(33%改善)
  2. 逐步叠加模块带来持续提升:每个模块都有明确的独立贡献
  3. 对不同立体匹配网络具有鲁棒性:Foundation Stereo和Stereo Anywhere都能工作
  4. 基线选择不敏感:3%、7%、10%场景半径的基线均表现良好
  5. 同时达到重建和渲染的SOTA:不像其他方法在两者之间取舍

亮点与洞察

  1. 立体深度替代单目深度的思路很有洞察力——利用渲染能力生成立体对,获取度量级先验
  2. 良性循环设计:渲染质量提升→立体先验更准→几何优化更好→渲染质量进一步提升
  3. patch级vs pixel级特征一致性的选择体现了对伪视角噪声的深入理解
  4. 同时解决了重建和渲染两个目标,而不是像之前方法只关注其一

局限与展望

  1. 依赖预训练的立体匹配网络和特征提取器,增加了推理时的计算开销
  2. 在极端稀疏视角(如2视角)下的表现有待验证
  3. 伪视角的生成策略(基于训练相机位置插值)可能不够灵活
  4. TSDF融合提取网格的过程引入了额外的后处理步骤

相关工作与启发

  • FatesGS (AAAI25):使用扁平高斯+单目深度的稀疏视角表面重建,是本文最直接的对比方法
  • GS2Mesh:最相关的前置工作,同样使用立体匹配提取网格,但在稀疏视角下因渲染质量退化而失效
  • CoR-GS (ECCV24):通过训练过程优化缓解稀疏视角问题的代表方法
  • 2DGS:扁平高斯表面重建的基础方法
  • NeuSurf:稀疏视角神经隐式表面重建的SOTA

评分

  • 新颖性: ⭐⭐⭐⭐ — 立体先验的自举式更新机制和特征一致性的层次化设计有明确创新
  • 实验充分度: ⭐⭐⭐⭐⭐ — 三个数据集、两种稀疏设置、详尽的消融和补充实验
  • 写作质量: ⭐⭐⭐⭐ — 动机分析深入,方法阐述清晰
  • 价值: ⭐⭐⭐⭐⭐ — 在稀疏视角下同时取得重建和渲染SOTA,实际应用价值大

SparseSurf: Sparse-View 3D Gaussian Splatting for Surface Reconstruction

会议: AAAI 2026
arXiv: 2511.14633
代码: 项目页面
领域: 3D视觉
关键词: 稀疏视角, 表面重建, 高斯溅射, 立体匹配, 多视角一致性

一句话总结

提出 SparseSurf,通过立体几何-纹理对齐(Stereo Geometry-Texture Alignment)和伪特征增强几何一致性(Pseudo-Feature Enhanced Geometry Consistency),在稀疏视角下同时实现高精度表面重建和高质量新视角合成,在 DTU、BlendedMVS 和 Mip-NeRF360 数据集上达到 SOTA。

研究背景与动机

3D高斯溅射在稠密视角下能高效重建高质量表面,但在稀疏视角下容易过拟合,导致重建质量严重下降。现有方法面临两个关键挑战:

挑战一:扁平化高斯加剧过拟合 - 为了更好地贴合表面几何,近期方法(FatesGS、Sparse2DGS)采用扁平化2D高斯基元 - 然而扁平化增加了各向异性,在稀疏视角下反而加剧了过拟合风险 - 从训练视角看不出问题,但在新视角下渲染质量严重下降

挑战二:单目深度先验的局限性 - 现有方法使用单目深度估计作为几何约束 - 但单目深度存在尺度模糊性,且缺乏置信度估计 - 在稀疏视角下,噪声引入的多视角不一致性更加严重

作者的核心洞察是:应该利用立体匹配提供度量级(metric)监督,并通过多视角特征一致性来缓解过拟合,使表面重建和新视角合成能够协同提升。

方法详解

整体框架

SparseSurf 基于扁平化3DGS(类似PGSR/GaussianSurfels),包含两个核心模块: 1. Stereo Geometry-Texture Alignment:渲染立体视图对,通过预训练立体匹配网络获取度量级深度先验 2. Pseudo-Feature Enhanced Geometry Consistency:结合训练视角和伪未见视角的多视角特征一致性

关键设计

1. 立体几何-纹理对齐(Stereo Geometry-Texture Alignment):连接渲染质量与几何估计

核心思想是利用3DGS优秀的插值渲染能力,渲染立体视图对并通过预训练立体匹配网络获取精确的度量级几何先验。

立体先验估计: - 对每个训练相机位姿 \(\mathbf{P}_i\),在水平基线 \(b\) 处生成立体视角 - 渲染立体视角图像形成立体对,输入预训练立体匹配网络获取视差图 - 通过已知基线和焦距将视差转换为深度 \(\mathcal{D}^*\) - 从深度图计算法线 \(\mathcal{N}^*\) - 通过立体视图一致性检查生成可靠性掩码 \(\mathcal{M}^*\) 过滤不可靠像素 - 训练过程中定期(每300次迭代)重新渲染并更新先验

立体几何监督: $\(\mathcal{L}_{depth} = \mathcal{L}_1(D, \mathcal{D}^*)\)$ $\(\mathcal{L}_{normal} = 1 - \mathcal{C}osine(N, \mathcal{N}^*)\)$ $\(\mathcal{L}_{nd} = 1 - \mathcal{C}osine(N_d, \mathcal{N}^*)\)$

此外引入边缘感知拉普拉斯平滑损失: $\(\mathcal{L}_{smooth} = \mathcal{S}mooth(N, \mathcal{N}^*) + \mathcal{S}mooth(N_d, \mathcal{N}^*)\)$

总立体损失: $\(\mathcal{L}_{stereo} = (\lambda_d \mathcal{L}_{depth} + \lambda_n \mathcal{L}_{normal} + \lambda_{nd} \mathcal{L}_{nd})\mathcal{M}^* + \lambda_s \mathcal{L}_{smooth}\)$

设计动机:随着训练推进,渲染质量提升→立体深度先验更准确→更好的几何监督→进一步提升渲染质量,形成正向循环。

2. 伪特征增强几何一致性(Pseudo-Feature Enhanced Geometry Consistency):缓解过拟合

包含两个子模块:

伪视角特征一致性(Pseudo-view Feature Consistency): - 为每个高斯基元增加特征属性,通过特征蒸馏从冻结的特征提取模型学习多视角特征表示 - 特征蒸馏损失:\(\mathcal{L}_f = 1 - \mathcal{C}osine(F, \mathcal{F}^*)\) - 在随机伪视角渲染特征图,通过双向warp计算特征差异,生成置信度掩码 - 采用 patch 级余弦相似度避免像素级噪声污染:

\[\mathcal{L}_{pseudo} = \sum_{i,j} \mathcal{M}_{feat}^{(i,j)} [1 - \mathcal{C}osine(\bar{\mathcal{F}}_{p2t}^{(i,j)}, \bar{\mathcal{F}}_r^{(i,j)})]\]

训练视角特征对齐(Train-view Feature Alignment): - 利用训练视角的高置信度特征在像素级强化多视角一致性 - \(\mathcal{L}_{train} = 1 - \mathcal{C}osine(\mathcal{F}_{s2t}, \mathcal{F}_s)\)

这种"稀疏训练视角+伪未见视角"的联合约束有效缓解了扁平化高斯在稀疏视角下的过拟合问题。

3. 多视角特征表示:高效的特征蒸馏

使用 Vis-MVSNet 提取8维多视角特征。关键设计是将特征编码进高斯属性中,避免每次迭代重新提取伪视角特征的计算开销,使整个pipeline保持高效。

损失函数 / 训练策略

总训练损失包含渲染损失、立体损失和特征一致性损失。立体先验从第500次迭代开始引入,每300次迭代更新一次,实现渐进式的几何引导。

实验关键数据

主实验(DTU表面重建 — Chamfer Distance↓)

方法 little-overlap设置 large-overlap设置 类别
COLMAP 2.61 1.52 MVS
NeuSurf 1.35 0.99 神经隐式
FatesGS 1.37 0.92 GS表面重建
2DGS 2.52 1.69 GS表面重建
Sparse2DGS 1.13 GS表面重建
SparseSurf 1.05 0.89 GS表面重建

在DTU两种稀疏视角设定下均取得最优Chamfer Distance。

DTU新视角合成

方法 PSNR↑ SSIM↑ LPIPS↓ AVGE↓
CoR-GS 19.21 0.853 0.119 0.082
Binocular3DGS 20.71 0.862 0.111
NexusGS 20.21 0.869 0.102 0.071
SparseSurf 21.31 0.886 0.089 0.067

在新视角合成上也取得全面最优,证明表面重建和渲染质量可以协同提升。

消融实验

配置 Accuracy↓ Completion↓ Average CD↓ 说明
Baseline(无模块) 1.318 2.302 1.810 基线
+ \(L_{stereo}\) 0.822 1.612 1.217 立体约束显著提升
+ \(L_{stereo}\) + \(L_{pseudo}\) 0.610 1.327 0.969 伪视角进一步提升
+ 全部(\(L_{train}\) 0.533 1.239 0.886 训练视角对齐锦上添花

关键发现

  1. 立体先验是最大的性能贡献者(CD从1.810降至1.217,降低33%)
  2. 伪视角特征一致性有效缓解过拟合(CD从1.217降至0.969)
  3. 训练视角特征对齐提供额外的鲁棒性增益(0.969→0.886)
  4. Patch级特征一致性比像素级更鲁棒,避免噪声传播

亮点与洞察

  1. 表面重建与渲染的协同:打破了传统方法中"更好的表面贴合→更差的渲染"的 trade-off
  2. 立体先验的正循环设计:渲染质量提升→更好的立体先验→更好的几何→再提升渲染,实现自增强
  3. 伪视角的特征级监督:相比之前仅用RGB或单目深度监督伪视角,多视角特征一致性约束更有效
  4. 计算效率的考量:将特征编码进高斯属性,避免了每次为伪视角重新提取特征的开销
  5. 适度使用扁平化高斯:认识到扁平化带来的过拟合风险,并用一致性约束来缓解

局限与展望

  1. 依赖预训练立体匹配网络的质量,该网络在训练早期渲染质量差时可能提供噪声先验
  2. 伪视角的生成策略较简单(基于训练相机附近),可探索更智能的视角选择
  3. 计算开销:需要额外的立体匹配推理和特征提取
  4. 未针对大规模场景(如Mip-NeRF360室外场景)做特定优化
  5. 3个视角的稀疏设定固定,未探索不同稀疏程度的表现

相关工作与启发

  • GS2Mesh:最相关工作,使用立体匹配从3DGS中提取网格,但在稀疏视角下效果差
  • FatesGS/Sparse2DGS:扁平化高斯的表面重建方法,SparseSurf指出其过拟合问题
  • DNGaussian:深度正则化方法,但几何约束过松无法重建精确表面
  • 启发:立体匹配作为3DGS的几何监督是一个有前景的方向

评分

  • 新颖性: ⭐⭐⭐⭐ — 立体自增强先验和特征级伪视角一致性设计新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ — 三个数据集,两种稀疏设定,详尽消融和对比
  • 写作质量: ⭐⭐⭐⭐ — 动机分析透彻,方法推导清晰
  • 实用价值: ⭐⭐⭐⭐ — 稀疏视角表面重建有广泛应用需求

相关论文