跳转至

ProbeSDF: Light Field Probes for Neural Surface Reconstruction

会议: CVPR 2025
arXiv: 2412.10084
代码: https://gitlab.inria.fr/projects-morpheo/ProbeSDF
领域: 3D视觉
关键词: 神经表面重建, 光场探针, SDF, 外观建模, 球谐函数

一句话总结

ProbeSDF 重新设计了 SDF 基神经表面重建的外观模型,将空间特征和角度特征解耦存储在不同分辨率的体素网格中,用极少参数(每体素 4 个)和微型 MLP 实现了更好的几何和图像质量,训练仅需 1-2 分钟并支持实时渲染。

研究背景与动机

领域现状:基于 SDF 的神经表面重建(NeuS、Voxurf、NeuS2)已成为从多视角图像获取高质量 3D 模型的主流方法。这些方法通常使用 MLP 将空间特征和视角方向联合解码为颜色。

现有痛点:现有方法将颜色编码和角度特征"共定位"存储在同一分辨率的网格中。然而,空间纹理(albedo)需要高频细节,角度变化(光照反射)在空间上变化缓慢。共定位导致:(1) 空间特征需额外编码光照信息,增大维度;(2) 需更大 MLP 解码,降低效率;(3) 局部光照效果难以被全局 MLP 准确建模。

核心矛盾:空间特征需要高分辨率编码纹理细节,角度特征需要空间平滑性(光照变化慢),混合存储既浪费内存又增加 MLP 负担。

本文目标:将辐射场的空间和角度分量解耦存储在不同分辨率网格中,用最少参数和最小 MLP 实现更好的重建质量和更快速度。

切入角度:借鉴实时渲染中「光场探针」概念——在稀疏 3D 位置预计算入射光照,渲染时在探针间插值。

核心 idea:用高分辨率网格存储空间特征(纹理),用 1/16 分辨率的探针网格存储角度特征(光照),两者通过微型 MLP 解码,加入 Fresnel 角度依赖。

方法详解

整体框架

3D 场景分为 16x16x16 的 tile。每个 tile 内用平面分解存储高分辨率空间特征,tile 的 8 个角存储光场探针(球谐系数)编码角度特征。给定空间点和视角,空间特征通过平面插值获取,角度特征通过三线性插值 8 个探针的球谐在反射方向上求值获取,两者加上 Fresnel 项送入 2 层 32 神经元 MLP 输出颜色。SDF 直接存于网格,用 NeuS 方程体渲染。

关键设计

  1. 解耦的空间-角度特征参数化:

    • 功能:分别以不同分辨率编码纹理和光照/反射信息
    • 核心思路:空间特征在 tile 内用 VM 分解(三组 16x16 正交平面)获得高分辨率编码。角度特征通过 8 个角顶点的探针三线性插值,空间分辨率仅 1/16 但足以编码缓慢变化的光照。颜色由微型 MLP 从两种特征 + Fresnel 项解码
    • 设计动机:探针仅占空间特征 1/6 内存。MLP 不需要从压缩特征中解密光照信息,因此可做到极小(2层32神经元)
  2. 光场探针(Light Field Probes):

    • 功能:在低分辨率网格上编码空间变化的角度信息
    • 核心思路:每个探针存储球谐系数向量,角度特征为三线性插值后的系数在反射方向上的球谐求值。关键区别:不像 3DGS 用球谐直接编码 RGB,探针编码抽象特征由 MLP 处理非线性。使用反射方向而非视角方向采样,使法线参与外观建模
    • 设计动机:球谐将角度信息预结构化后送入 MLP,降低学习难度。探针的空间插值天然提供光照平滑变化
  3. Fresnel 角度依赖项:

    • 功能:处理掠射角反射率增强的物理效应
    • 核心思路:将 \((1 - \mathbf{n} \cdot \mathbf{v})^k\)(k=0...5)作为 MLP 额外输入,让 MLP 学习 Fresnel 多项式系数,避免需要显式估计基础反射率
    • 设计动机:两个不同视角可能产生相同反射方向但不同入射角,Fresnel 项消除这个歧义。去掉 Fresnel 导致 Chamfer 增加 13%

损失函数 / 训练策略

6 项损失:SDF 平滑性、Eikonal 正则、法线平滑、特征平滑、探针平滑、光度损失。从粗到细训练,逐步增加分辨率和球谐阶数。部分数据集可选训练逐相机偏置向量。

实验关键数据

主实验

MVMannequins(14 假人,68 相机):

方法 Chamfer (mm) PSNR 训练时间
MMH 1.14 36.33 2-3min
Voxurf 1.59 35.51 15min
NeuS2 2.13 34.22 5min
2DGS 3.35 34.89 >1h
ProbeSDF 1.04 36.81 1min

DTU:

方法 Chamfer PSNR 训练时间
Voxurf 0.73 37.08 15min
NeuS2 0.80 36.00 5min
2DGS 0.76 36.03 12min
ProbeSDF (4,4,4) 0.68 37.03 150s

消融实验

配置 Chamfer (mm) PSNR 说明
(4,4,4) 完整 1.04 36.81 MVMann 全配置
w/o probes smoothing 1.09 36.91 去掉探针平滑
w/o Fresnel 1.18 36.79 去掉 Fresnel 项
(4,4,1) BMVS 2.58 34.44 只用常数球谐
(4,4,4) BMVS 2.37 35.19 4 阶球谐
(8,8,4) BMVS 2.22 35.89 更多特征维度

关键发现

  • MVMannequins 上 1 分钟训练超越所有基线,比 MMH 快 2-3 倍
  • 每体素仅需 4 个参数,模型 30MB(vs Voxurf 500MB)
  • Fresnel 项对几何质量影响显著(Chamfer 从 1.04 到 1.18)
  • 球谐阶数 l=4 已足够常见粗糙度材质
  • ActorsHQ 高分辨率数据上 37.48 dB PSNR 仅需 4 分钟
  • 渲染 200-400 Hz 支持实时应用

亮点与洞察

  • 极致参数效率:每体素 4 个参数,探针占空间特征 1/6 内存,模型 30MB。来源于对光场物理特性的深刻理解
  • 微型 MLP 设计:2 层 32 神经元 MLP 融合进单个 CUDA kernel,空间和角度信息在输入 MLP 前已被充分结构化
  • 光场探针从渲染到重建的概念迁移:将实时渲染中预计算光照的技术思路反转——从已知图像中学习探针参数

局限与展望

  • 光照编码在局部空间中,外推能力有限——相机覆盖稀疏区域可能出现阴影伪影
  • 不支持光照/材质分解,无法重光照或材质编辑
  • 假设各向同性材质
  • 未与 3DGS 在 NVS 质量上直接对比

相关工作与启发

  • vs Voxurf: 直接改进外观模型,训练从 15 分钟降到 150 秒且质量更好
  • vs NeuS2: hash grid + 大 MLP 训练 5 分钟但质量落后,显式探针更高效
  • vs 3DGS/Plenoxels: 球谐直接编码 RGB 需 48 参数,ProbeSDF 编码抽象特征仅需 4 参数
  • vs NeRFactor/TensoIR: 完整分解 5+ 小时训练,ProbeSDF 分钟级达到更好拟合

评分

  • 新颖性: ⭐⭐⭐⭐ 空间-角度解耦直观且有物理动机,光场探针迁移有创意
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个数据集覆盖物体和人体,消融详尽
  • 写作质量: ⭐⭐⭐⭐⭐ 物理动机精炼,图示直观,参数可解释
  • 价值: ⭐⭐⭐⭐⭐ 训练快、渲染快、质量好、参数少,可作为 drop-in replacement

相关论文