GeoSplatting: Towards Geometry Guided Gaussian Splatting for Physically-based Inverse Rendering¶

会议: ICCV 2025
arXiv: 2410.24204
代码: 项目页面
领域: 3D视觉
关键词: 逆渲染, 3D高斯泼溅, 材质分解, 环境光照, 网格引导

一句话总结¶

提出 GeoSplatting，通过从可优化的显式网格可微分地生成表面对齐的高斯点，为3DGS提供精确的几何引导，实现SOTA逆渲染性能（材质-光照解耦），同时训练仅需10-15分钟。

研究背景与动机¶

逆渲染旨在从多视角图像中恢复场景的材质属性（albedo、roughness、metalness）和环境光照，这对游戏、电影、AR/VR等下游应用至关重要。核心挑战在于准确建模光传输（light transport）。

现有方法的问题可按表示方法分类：

隐式场方法（TensoIR, NeRO）：通过SDF梯度获得精确法线，适合逆渲染，但体渲染中的密集采样导致训练耗时数小时

网格方法（NVdiffrec, NVdiffrecmc）：天然支持PBR流程和射线追踪，但可微渲染仅在三角形边缘产生梯度，优化困难

3DGS方法（R3DG, GS-IR, GS-Shader）：渲染效率高，但存在两个根本性缺陷： - 法线不精确：通过隐式几何约束（如深度-法线正则化）近似高斯点法线，精度不足 - 表面不不透明：高斯点本质上是半透明的，无法定义准确的光-表面交点

作者的核心洞察：准确的光传输建模需要两个条件——（1）精确的法线方向（决定光传播方向）和（2）不透明的表面（定义光-表面交点）。显式网格天然满足这两个条件。因此，通过将3DGS与显式网格「桥接」，可以同时获得网格的几何精度和3DGS的渲染效率。

方法详解¶

整体框架¶

GeoSplatting 的流程：标量场 \(\boldsymbol{\zeta}\) → FlexiCubes 提取三角网格 \(\mathbf{M}\) → MGadapter 生成表面对齐的高斯点 → 多分辨率哈希网格查询PBR属性 → 物理渲染方程计算每个高斯点的PBR颜色 → 3DGS光栅化生成最终图像。整个过程完全可微，支持端到端训练。

关键设计¶

Mesh-to-Gaussian Adapter (MGadapter):
- 功能：从三角网格的每个面可微分地生成结构化的高斯点
- 核心思路：对每个三角面片 \(\mathbf{P}\)，生成 \(K=6\) 个高斯点，按重心坐标空间中的预定义模式放置。位置 \(\boldsymbol{\mu}_i\) 和法线 \(\mathbf{n}_i\) 通过重心插值计算，尺度 \(\mathbf{S}_i\) 和旋转 \(\mathbf{R}_i\) 由三角面片的方向和形状决定。不透明度固定为1（因为网格表面不透明）。 \(\{(\boldsymbol{\mu}_i, \mathbf{S}_i, \mathbf{R}_i, \mathbf{n}_i) | i=1,...,K\} = \mathcal{T}(\mathbf{P})\)
- 设计动机：高斯点的形状参数完全由三角面片决定，保证了mesh与3DGS之间的形状一致性。这意味着mesh法线 = 高斯法线，不需要额外的法线学习或正则化。
基于物理的高斯渲染:
- 功能：为每个高斯点计算物理可解释的PBR颜色
- 核心思路：替代原始3DGS的球谐函数，使用GGX微表面模型的PBR渲染方程： \(\mathbf{L}_o(\mathbf{x}, \boldsymbol{\omega}_o) = \int_{\mathcal{H}^2} \mathbf{f}_r(\mathbf{x}, \boldsymbol{\omega}_i, \boldsymbol{\omega}_o) \mathbf{L}_i(\mathbf{x}, \boldsymbol{\omega}_i) |\mathbf{n} \cdot \boldsymbol{\omega}_i| \mathrm{d}\boldsymbol{\omega}_i\) 材质属性（albedo \(\mathbf{a}\), roughness \(\rho\), metalness \(m\)）通过多分辨率哈希网格 \(\mathcal{E}_d, \mathcal{E}_s\) 查询。用蒙特卡罗采样评估渲染方程积分。
- 设计动机：物理可解释的材质表示支持真实的重光照（relighting），球谐函数无法做到这一点。
基于网格的高效光传输建模:
- 功能：利用显式网格进行高效的自遮挡评估和间接光照建模
- 核心思路：将入射光分解为直接光 \(\mathbf{L}_{\text{dir}}\) 和间接光 \(\mathbf{L}_{\text{ind}}\)，通过遮挡因子 \(O(\mathbf{x}, \boldsymbol{\omega}_i)\) 加权。关键创新：用网格上的二值遮挡 \(O_{\text{mesh}} \in \{0,1\}\) 替代高斯点上的连续遮挡 \(O_{\text{3dgs}} \in [0,1]\)，利用BVH加速的网格射线追踪进行高效遮挡评估。 \(\mathbf{L}_i(\mathbf{x}, \boldsymbol{\omega}_i) = (1-O)\mathbf{L}_{\text{dir}}(\boldsymbol{\omega}_i) + O \cdot \mathbf{L}_{\text{ind}}(\mathbf{x}, \boldsymbol{\omega}_i)\)
- 设计动机：MGadapter 保证了mesh与3DGS的形状一致性，因此 \(O_{\text{mesh}} \approx O_{\text{3dgs}}\)，替换不引入明显误差。BVH加速的网格射线追踪远比在3D高斯点上累积不透明度更高效。

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \mathcal{L}_{\text{img}} + \lambda_{\text{entropy}}\mathcal{L}_{\text{entropy}} + \lambda_{\text{smooth}}\mathcal{L}_{\text{smooth}} + \lambda_{\text{light}}\mathcal{L}_{\text{light}}\)

其中 \(\mathcal{L}_{\text{img}} = \mathcal{L}_1 + \lambda_{\text{ssim}}\mathcal{L}_{\text{SSIM}} + \lambda_{\text{mask}}\mathcal{L}_{\text{mask}}\)。

两阶段训练策略：初始阶段使用 Split-Sum 近似（无自遮挡，快速预计算）进行 warm-up，几何稳定后切换到蒙特卡罗采样模式实现完整光传输。训练末期可选切换到 Deferred Shading 进行外观细化，改善高频反射效果。

得益于几何引导，不需要 dist loss 或 pseudo depth normal loss 等额外正则化。

实验关键数据¶

主实验¶

数据集	指标	GeoSplatting	R3DG	TensoIR	NVdiffrecmc	GS-IR
Synthetic4Relight	Relighting PSNR↑	34.10	31.00	29.94	30.23	23.81
TensoIR Synthetic	Relighting PSNR↑	29.95	28.55	28.51	26.51	24.35
TensoIR Synthetic	Albedo PSNR↑	29.41	28.74	28.35	27.71	26.80
Shiny Blender	NVS PSNR↑	31.14	28.83	27.89	28.03	27.01
训练时间(min)	-	14	~110	~270	82	20

法线质量（MAE↓）：

数据集	GeoSplatting	R3DG	TensoIR	GS-IR	NVdiffrecmc
TensoIR Synthetic	4.08	5.45	4.10	5.41	4.81
Shiny Blender	2.15	7.04	4.42	4.42	9.76

消融实验¶

配置	NVS PSNR↑	Relighting PSNR↑	Albedo PSNR↑	Normal MAE↓
w/o 形状对齐	35.95	26.39	26.72	8.29
w/o 外观细化	35.07	27.95	29.31	4.42
w/o 遮挡建模	35.87	27.36	27.80	6.17
w/o 间接光	36.01	28.92	29.18	4.97
完整模型	36.45	29.95	29.41	4.08

关键发现¶

形状对齐（MGadapter）是性能提升的最大因素——没有它法线MAE从4.08退化到8.29
遮挡建模对NVS影响不大但对分解至关重要——albedo PSNR从29.41降到27.80
GeoSplatting 训练仅14分钟，比隐式场方法（TensoIR ~270min, NeRO ~800min）快一个数量级
在反射性表面（Shiny Blender）上优势最大，法线MAE比R3DG低 69%

亮点与洞察¶

显式+隐式的最佳结合：网格提供精确几何，3DGS提供高效渲染，MGadapter无缝连接两者。这种混合表示比任一单独使用都更强
无需法线学习：摆脱了之前3DGS逆渲染方法对法线近似的依赖，从根本上解决了法线不准导致的材质分解噪声
14分钟训练：在保持SOTA性能的同时达到最快训练速度，对迭代式设计工作流极具价值
Split-Sum warm-up + MC采样的两阶段策略平衡了早期稳定性和后期精度

局限与展望¶

依赖等值面技术（FlexiCubes），受网格分辨率限制，难以处理细薄结构和复杂几何
训练需要物体mask，限制了在无mask场景中的直接应用
前向着色（per-Gaussian shading）的细节受高斯点密度限制，虽然通过 Deferred Shading 缓解但增加了复杂性
目前仅支持物体级，扩展到场景级是重要的未来方向

评分¶

新颖性: ⭐⭐⭐⭐ MGadapter是优雅的桥接设计，但网格+3DGS混合的思路并非全新
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集覆盖漫反射/高光/真实场景，消融全面
写作质量: ⭐⭐⭐⭐⭐ 图示清晰，motivation阐述深入，技术细节完整
价值: ⭐⭐⭐⭐⭐ 14分钟SOTA逆渲染具有高实用价值，混合表示思路有广泛启发性