Surface Reconstruction from 3D Gaussian Splatting via Local Structural Hints¶

会议: ECCV 2024
论文链接: OpenReview | DOI 代码: GitHub
领域: 3D视觉 / 表面重建
关键词: 3D高斯溅射, 表面重建, 移动最小二乘, 神经隐式场, 单目几何先验

一句话总结¶

针对3DGS在表面重建质量差的问题，提出利用单目法向/深度先验来增强高斯原语的几何组织性，并通过移动最小二乘（MLS）构建局部符号距离场，再联合学习神经隐式网络进行正则化，显著提升了3DGS的表面重建精度。

研究背景与动机¶

领域现状：3D高斯溅射（3DGS）凭借其在新视角合成中的高效性和高质量渲染而受到广泛关注，成为NeRF之后最热门的3D表示之一。然而，3DGS使用数百万个无组织的高斯原语来表示场景，这些高斯原语主要为渲染质量优化，缺乏对底层几何结构的建模。

现有痛点：3DGS面临的核心挑战是从大量无序的高斯原语中提取高质量表面网格。由于高斯原语在优化过程中缺乏几何约束，它们的空间分布往往杂乱无章——许多高斯偏离真实表面、相互重叠、法向不一致。已有方法如SuGaR尝试通过正则化让高斯贴合表面，但效果有限，特别是在几何复杂区域。

核心矛盾：3DGS的设计初衷是最大化渲染质量，而不是几何精度。渲染只需要在相机视角上呈现正确的颜色，而表面重建需要高斯原语精确地对齐到真实表面。这两个目标之间存在内在矛盾——许多离散的高斯配置可以产生相同的渲染结果，但只有一种反映真实几何。

本文目标 (1) 如何在3DGS训练中引入有效的几何约束，让高斯原语对齐到真实表面；(2) 如何从离散的高斯原语中准确地提取连续的表面网格。

切入角度：作者从"局部结构提示"的视角出发，提出两层几何引导：第一层利用现有的单目深度/法向估计为高斯原语提供全局几何先验；第二层在局部区域构建MLS符号距离场，提供精细的表面对齐信号。两层引导形成从粗到细的几何约束。

核心 idea：通过单目几何先验增强高斯原语的组织性，然后用MLS构建局部符号距离场并联合学习神经隐式网络，使3DGS的高斯原语精确对齐到真实表面。

方法详解¶

整体框架¶

GSrec的整体pipeline分三个阶段。首先，在标准3DGS训练的基础上，加入来自单目法向和深度估计模型（如Omnidata）的几何监督信号，引导高斯原语的均值和协方差矩阵（即位置和形状）初步对齐到表面。然后，在每个局部区域利用MLS方法从周围的高斯原语构建符号距离场。最后，引入一个轻量级神经隐式网络来拟合MLS场，网络的输出与MLS场互相正则化，共同推动高斯原语进一步精确对齐。最终表面通过Marching Cubes从优化后的场中提取。

关键设计¶

单目几何先验引导（Monocular Geometry Guidance）:
- 功能：利用预训练的单目深度和法向估计模型为高斯原语提供初步的几何对齐信号
- 核心思路：对于每个训练视角，使用Omnidata等模型估计其深度图和法向图。通过渲染3DGS得到当前预测的深度/法向，计算与单目估计之间的损失：深度损失 \(L_{depth} = \|D_{render} - D_{mono}\|\) 和法向损失 \(L_{normal} = 1 - \cos(N_{render}, N_{mono})\)。这些损失反传到高斯原语的参数上，调整其位置（均值）和形状（协方差矩阵）。特别地，法向损失会引导高斯椭球的最短轴与表面法向对齐，让"薄饼状"高斯贴合在表面上
- 设计动机：纯渲染损失无法限制高斯原语的几何配置（同一渲染结果对应无数种高斯分布），而单目估计虽然可能不够精确，但提供了足够的"方向性"指引。这种先验将无约束优化问题变成了有偏的搜索问题
移动最小二乘符号距离场（MLS-based Signed Distance Field）:
- 功能：在每个局部区域利用周围高斯原语构建连续的符号距离场，弥补高斯原语离散性的不足
- 核心思路：对于查询点 \(x\)，收集其邻域内的高斯原语集合 \(\{g_i\}\)。每个高斯原语贡献一个有符号距离值（基于 \(x\) 到高斯中心的距离和高斯法向的内积）和一个权重（基于空间距离的衰减函数）。MLS将这些贡献加权平均，得到 \(x\) 处的符号距离值：\(f_{MLS}(x) = \frac{\sum_i w_i(x) \cdot d_i(x)}{\sum_i w_i(x)}\)，其中 \(d_i(x)\) 是 \(x\) 相对于第 \(i\) 个高斯的有符号距离，\(w_i(x)\) 是权重。MLS场的零等值面即为重建表面。关键是高斯原语的法向信息（来自单目先验引导）为符号距离提供了方向性
- 设计动机：单个高斯原语只是一个离散的"点"，无法表示连续表面。MLS通过局部加权平均将离散高斯"粘合"成连续场，同时由于局部性，可以捕获细节。比起全局拟合（如SDF网络），MLS的局部性避免了远处高斯对局部几何的干扰
联合学习神经隐式网络（Joint Neural Implicit Learning）:
- 功能：训练一个轻量级MLP来拟合MLS场，二者互相正则化
- 核心思路：引入一个小型MLP网络 \(f_{NN}(x)\) 来预测查询点 \(x\) 的SDF值。训练目标是让 \(f_{NN}\) 的输出逼近 \(f_{MLS}\)，同时将 \(f_{NN}\) 的学习信号反传到高斯原语参数上。具体的联合损失为 \(L_{joint} = \|f_{NN}(x) - f_{MLS}(x)\|^2\)。由于神经网络天然具有平滑性和泛化性，它能纠正MLS场中由于高斯分布不均匀导致的局部噪声，同时将这种平滑信号传递给高斯原语，驱动它们向更合理的几何配置调整。这种"学生-教师"式的双向正则化比单独使用MLS或神经网络效果更好
- 设计动机：MLS场直接依赖高斯原语的位置和法向，容易受到个别异常高斯的影响。神经网络通过隐式正则化（权重衰减、网络结构带来的频率偏好）可以过滤这些噪声。反过来，MLS场的局部精确性可以引导神经网络学到更准确的几何。两者联合优化实现了"取长补短"

损失函数 / 训练策略¶

总损失为 \(L = L_{render} + \lambda_d L_{depth} + \lambda_n L_{normal} + \lambda_j L_{joint} + \lambda_e L_{eikonal}\)。其中 \(L_{render}\) 是标准3DGS渲染损失，\(L_{eikonal}\) 是Eikonal正则化（约束SDF梯度模为1）。训练采用两阶段策略：先用渲染+单目几何损失训练一段时间，让高斯原语初步对齐；再加入MLS+神经隐式网络进行联合精细化。

实验关键数据¶

主实验¶

数据集	指标	GSrec	SuGaR	2DGS	NeuS
DTU	Chamfer Dist↓	0.83	1.47	0.95	0.91
Replica	F-Score↑	88.2	79.5	84.1	86.3
ScanNet	F-Score↑	52.6	41.3	47.8	49.2
Tanks&Temples	F-Score↑	45.8	37.2	42.1	43.5

消融实验¶

配置	DTU Chamfer	说明
Full GSrec	0.83	完整模型
w/o 单目先验	1.21	高斯法向和位置缺乏指导
w/o MLS场	1.05	只用单目先验，缺乏局部几何精细化
w/o 神经隐式	0.95	只用MLS，缺乏平滑正则化
w/o 联合学习	0.98	MLS和神经网络分开训练

关键发现¶

单目先验贡献最大，移除后Chamfer距离增加46%，说明几何先验是高质量重建的基石
MLS和神经隐式网络各自贡献显著，但联合学习的效果比两者简单叠加更好，验证了双向正则化的价值
在Replica和ScanNet等室内场景上，GSrec的优势尤其明显，因为这些场景包含大量平面结构，MLS的局部拟合特别适合
与纯隐式方法（NeuS）相比，GSrec在保持可比几何精度的同时，渲染速度快一个数量级

亮点与洞察¶

从粗到细的几何引导策略设计得很好：单目先验→MLS→神经隐式，三层引导逐步提升精度。这种层级化的设计思路在3D重建中很有参考价值
MLS在高斯原语上的应用很自然又很有效：每个高斯原语本身就携带了位置和法向信息，用MLS将它们融合成连续场是一个水到渠成的设计
神经网络作为"正则化器"而非"主角"的定位：不是用神经网络直接预测SDF，而是让它辅助和正则化MLS场。这种设计避免了纯隐式方法的训练不稳定问题

局限与展望¶

依赖单目深度/法向估计模型的精度，在这些模型失效的场景（如高度透明/反射表面）可能表现不佳
MLS场的构建需要查询邻域内的高斯原语，在高斯稀疏的区域可能出现空洞
两阶段训练策略增加了训练复杂度和时间成本
神经隐式网络的引入带来额外的参数和计算开销，虽然网络较小，但在大规模场景中仍有影响

评分¶

新颖性: ⭐⭐⭐⭐ MLS+神经隐式联合正则化3DGS的思路新颖
实验充分度: ⭐⭐⭐⭐ 多个数据集覆盖室内外场景，消融全面
写作质量: ⭐⭐⭐⭐ 方法动机和技术细节描述清晰
价值: ⭐⭐⭐⭐⭐ 对3DGS的表面重建有显著实际推动，开源代码