Ray-Distance Volume Rendering for Neural Scene Reconstruction¶

会议: ECCV 2024
arXiv: 2408.15524
代码: 无
领域: 3D视觉
关键词: 室内场景重建, 神经隐式表面, SRDF, 体渲染, 可见性预测

一句话总结¶

提出 RS-Recon 方法，用射线方向相关的有符号射线距离函数（SRDF）替代传统 SDF 来参数化体渲染中的密度函数，结合 SRDF-SDF 一致性损失和自监督可见性任务，在多物体室内场景重建中取得更准确的表面和视图合成。

研究背景与动机¶

领域现状: 基于 NeRF 的神经隐式场景重建方法（如 VolSDF、NeuS、MonoSDF）通常用 SDF 的可学习变换来参数化体密度函数，在单物体场景中表现优异
现有痛点: 在多物体室内场景中，沿相机射线采样点的 SDF 可能受到相邻物体表面的影响而产生波动，形成多个局部极小值，导致密度函数出现错误的局部极大值和高权重
核心矛盾: SDF 计算的是点到整个场景所有表面的最短距离，但体渲染中沿射线方向，真正重要的只是射线交汇的那个表面——远处不在射线上的表面不应影响该射线的密度分布
本文解决什么: 解决 SDF 在多物体场景中产生虚假密度峰值的问题，使体渲染的权重分布更准确地反映实际2D观测
切入角度: 引入射线相关的 SRDF（Signed Ray Distance Function），它仅计算点到沿射线方向表面的最短距离，消除了非射线方向表面的干扰
核心idea: 用 SRDF 建模密度函数实现更准确的体渲染，同时用 SDF 描述3D表面几何，通过一致性损失和可见性任务将二者耦合

方法详解¶

整体框架¶

RS-Recon 的网络包含三个 MLP 分支： 1. 几何 MLP \(f_g\): 从编码位置预测 SDF \(d_\Omega\) 和几何特征 \(\mathbf{F}_g\) 2. SRDF MLP \(f_s\): 从几何特征 + 视角方向 + 位置预测 SRDF \(\tilde{d}_\Omega\) 和可见性概率 3. 颜色 MLP \(f_c\): 从几何特征 + 视角方向 + 法线预测颜色

体渲染使用 SRDF 推导的密度函数；表面提取使用仅依赖位置的 SDF（通过 Marching Cubes）。

关键设计¶

模块一：SRDF 密度函数

传统 SDF 定义为点到场景所有表面的最短距离：

\[d_\Omega(\mathbf{p}) = (-1)^{\mathbf{1}_\Omega(\mathbf{p})} \min_{\mathbf{p}^* \in \mathcal{M}} \|\mathbf{p} - \mathbf{p}^*\|_2\]

SRDF 定义为点沿射线方向到表面的最短距离：

\[\tilde{d}_\Omega(\mathbf{p}, \mathbf{r}) = (-1)^{\mathbf{1}_\Omega(\mathbf{p})} \min_{(\mathbf{p}+\rho\mathbf{r}) \in \mathcal{M}; \rho \in \mathbb{R}} |\rho|\]

SRDF 是射线相关的（view-dependent），因此仅在射线与表面的交叉点附近产生密度峰值，不受旁边物体的干扰。从 SRDF 推导的密度函数为：

\[\sigma^{\text{SRDF}}(\mathbf{p}, \mathbf{r}) = \alpha \Psi_\beta(-\tilde{d}_\Omega(\mathbf{p}, \mathbf{r}))\]

其中 \(\Psi_\beta\) 是零均值、\(\beta\) 尺度的 Laplace 分布 CDF，\(\alpha, \beta\) 为可学习参数。

模块二：SRDF-SDF 一致性损失

SRDF 和 SDF 虽然定义不同，但符号含义一致（正=表面外，负=表面内）。由于两者由不同分支预测，符号一致性无法自动保证。用 sigmoid 近似符号函数实现可微约束：

\[\mathcal{L}_{con} = \frac{1}{N_r} \sum_{\mathbf{p}, \mathbf{r}} M_{con} \|\varsigma(\tilde{d}_\Omega) - \varsigma(d_\Omega)\|_2\]

\[\varsigma(d) = \text{Sigmoid}(k \cdot d), \quad M_{con} = [\tilde{d}_\Omega \cdot d_\Omega < 0]\]

仅对符号不一致的点施加惩罚。该损失的梯度有两个优势：(1) 惩罚力度随不一致程度调整；(2) sigmoid 导数在零点附近最大，对表面附近的点提供最强监督。

模块三：自监督可见性任务

沿射线方向，在第一个表面交叉点之前的采样点为可见，之后为遮挡。通过检测相邻采样点的 SRDF/SDF 符号变化定位第一个表面。为减少噪声，同时使用 SRDF 和 SDF 的信息：

\[V_{gt} = \begin{cases} 1, & \text{if } V^{\text{SRDF}}=1 \text{ and } V^{\text{SDF}}=1 \\ 0, & \text{if } V^{\text{SRDF}}=0 \text{ and } V^{\text{SDF}}=0 \end{cases}\]

SRDF 和 SDF 判断不一致时不参与训练。采用二值交叉熵损失 \(\mathcal{L}_{vis}\) 监督可见性预测。

损失函数 / 训练策略¶

总损失函数：

\[\mathcal{L} = \mathcal{L}_c + \lambda_n \mathcal{L}_n + \lambda_d \mathcal{L}_d + \lambda_e \mathcal{L}_e + \lambda_s \mathcal{L}_s + \lambda_{con} \mathcal{L}_{con} + \lambda_{vis} \mathcal{L}_{vis}\]

包含：RGB 损失 \(\mathcal{L}_c\)、法线损失 \(\mathcal{L}_n\)、深度损失 \(\mathcal{L}_d\)、Eikonal 损失 \(\mathcal{L}_e\)（约束 SDF 梯度范数为1）、平滑损失 \(\mathcal{L}_s\)、一致性损失 \(\mathcal{L}_{con}\)、可见性损失 \(\mathcal{L}_{vis}\)。训练时同时渲染 SRDF 和 SDF 密度的颜色以获取 SDF 的梯度信号。

实验关键数据¶

主实验¶

ScanNet（真实世界室内数据集）：

方法	Acc ↓	Comp ↓	Prec ↑	Recall ↑	F-score ↑
MonoSDF_MLP	0.035	0.048	0.799	0.681	0.733
HelixSurf	0.038	0.044	0.786	0.727	0.755
Occ_SDF_Hybrid	0.040	0.041	0.783	0.748	0.765
Ours_MLP	0.040	0.040	0.809	0.779	0.794

Replica（合成室内数据集）/ Tanks and Temples（大规模真实数据集）：

数据集	方法	关键指标
Replica (MLP)	MonoSDF → Ours	F-score: 86.18 → 91.72
Tanks and Temples (Grid)	MonoSDF → Ours	F-score: 6.58 → 7.73

视图合成 PSNR：

数据集	MonoSDF_MLP	Occ_SDF_Hybrid	Ours_MLP
ScanNet	26.40	26.98	27.77
Replica	34.45	35.50	36.06
Tanks and Temples	24.13	24.72	25.47

消融实验¶

ScanNet 上 MLP 表示的消融（F-score ↑）：

配置	F-score
(a) Baseline (MonoSDF)	0.733
(b) + SRDF 密度	0.745 (+1.2%)
(c) + SRDF-SDF 一致性损失	0.776 (+3.1%)
(d) + 可见性(仅 SDF)	0.789
(e) + 可见性(仅 SRDF)	0.788
(f) + 可见性(SRDF+SDF)	0.794 (+6.1%)

关键发现¶

仅替换密度函数为 SRDF（无额外约束）即可提升 F-score 1.2%，验证了 SRDF 密度的有效性
SRDF-SDF 一致性损失贡献最大（+3.1%），表明符号对齐对于双分支架构至关重要
可见性标签同时使用 SRDF 和 SDF 优于单独使用任一，因为互补先验可过滤噪声标签
定性分析中，MonoSDF 在白墙附近产生虚假表面（因 SDF 受旁边表面影响），本方法则更准确
渲染图像中，MonoSDF 因密度双峰产生不准确颜色，本方法单峰权重更精确

亮点与洞察¶

问题分析出色: 用 toy example 清晰展示 SDF 在多物体场景中的密度问题，动机令人信服
SRDF 与 SDF 分工明确: SRDF 负责密度建模（view-dependent），SDF 负责表面提取（view-independent），各司其职
自监督可见性: 不依赖多视图几何或额外标注，利用网络自身的 SRDF/SDF 预测生成伪标签
通用性强: 可以应用于 VolSDF 或 NeuS 基础的重建方法，使用 Grid 或 MLP 表示

局限与展望¶

SRDF MLP 引入了额外的网络参数和计算开销
对于单物体场景，SRDF 和 SDF 差异不大，增益有限
可见性伪标签在训练初期（SDF/SRDF 不准时）可能引入噪声
可考虑在 3D Gaussian Splatting 框架中引入类似思路
大规模室外场景（Tanks and Temples）上改进幅度仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ — SRDF 密度建模在神经场景重建中是新颖的视角
实验充分度: ⭐⭐⭐⭐⭐ — 三个数据集、两种表示、详细消融与定性分析
写作质量: ⭐⭐⭐⭐⭐ — 问题动机通过 toy example 阐述极为清晰
实用价值: ⭐⭐⭐⭐ — 作为即插即用模块适配现有 SDF 基方法