Dynamic Neural Radiance Field from Defocused Monocular Video¶

会议: ECCV 2024
arXiv: 2407.05586
代码: 有
领域: 3D视觉
关键词: 动态NeRF, 散焦模糊, 景深渲染, 体积渲染, 新视角合成

一句话总结¶

提出 \(D^2RF\)，首个从散焦单目视频中恢复清晰动态NeRF的方法，通过将景深(DoF)渲染与体积渲染统一，引入分层DoF体积渲染来建模散焦模糊并恢复清晰新视角。

研究背景与动机¶

领域现状¶

动态NeRF从单目视频进行时空新视角合成已取得优秀成果，现有方法（NSFF、HyperNeRF、DVS等）通过建立时空一致性来实现高质量动态场景重建。

核心痛点¶

现有动态NeRF方法假设输入为全聚焦（all-in-focus）图像序列。然而实际视频拍摄中，由于场景深度变化、大光圈设定以及拍摄者对焦不稳定，散焦模糊（defocus blur） 几乎不可避免。散焦模糊会导致： 1. 缺乏清晰细节，干扰动态物体运动建模 2. 无法建立输入视角间的时间一致性 3. 当前动态NeRF方法在散焦输入下严重退化，无法恢复清晰内容

现有方案局限¶

静态场景去焦方法（Deblur-NeRF、DP-NeRF、DoF-NeRF）：仅针对静态多视角输入，不能处理动态场景
这些方法在NeRF最后一步（体积渲染之后）进行模糊建模——属于后处理方式
2D单图去模糊+动态NeRF的组合方案：各视角去模糊结果缺乏视角间一致性，效果不稳定

核心切入角度¶

作者发现 DoF渲染中的层可见性（layer visibility）与体积渲染中的不透明度（opacity）具有相同的物理含义——两者都描述了光线在某点被吸收/遮挡的程度。基于此，可以将DoF模糊过程无缝嵌入NeRF的体积渲染管线中，而非作为后处理。

方法详解¶

整体框架¶

\(D^2RF\) 输入散焦单目视频，输出清晰的动态场景NeRF表示。核心流程： 1. 定义模糊核模板 → 通过MLP预测优化后的稀疏光线及权重 2. 将光线送入静态MLP \(G_\theta^{st}\) 和动态MLP \(G_\theta^{dy}\) 分别建模场景 3. 通过分层DoF体积渲染融合模糊并监督训练 4. 测试时直接渲染光线（不经过DoF模糊），输出清晰新视角

关键设计¶

1. 分层DoF体积渲染（Layered DoF Volume Rendering）¶

功能：将散焦模糊的建模过程从后处理提升到体积渲染内部，实现模糊感知的NeRF训练。

核心联系：体积渲染中采样点的 alpha 值 \(\alpha_i = 1 - \exp(-\sigma\delta_i)\) 表示该点的不透明度，与DoF渲染中的层可见性 \(W_i\) 具有相同的物理意义。且NeRF的离散采样方式与DoF渲染的层离散化天然兼容。

将传统DoF渲染公式从图像层级转换为单像素/单光线层级后，提出分层DoF体积渲染公式：

\[\hat{C}_{dof}(\mathbf{r}_p) = \frac{\sum_{i=1}^{k} (T_i * K(\mathbf{r}))(1-\exp(-\sigma\delta_i)) \mathbf{c}(\mathbf{r}(t_i), \mathbf{d}) * K(\mathbf{r})}{\sum_{i=1}^{k} (T_i * K(\mathbf{r}))(1-\exp(-\sigma\delta_i)) * K(\mathbf{r})}\]

其中 \(T_i\) 为累积透射率，\(K(\mathbf{r})\) 为光线级模糊核。

设计动机：将模糊建模深度集成到体积渲染采样过程中，而非事后模糊，使NeRF网络能从散焦输入中学习清晰场景表示。

2. 光线级优化稀疏核（Ray-based Optimized Sparse Kernel）¶

功能：将DoF渲染的层级核 \(K(\gamma_i)\) 转换为光线级核 \(K(\mathbf{r})\)，并用稀疏点替代密集核以降低计算成本。

核心思路：使用MLP \(G_\theta^k\) 预测核点的偏移和权重：

\[(\Delta\mathbf{j}, g_j) = G_\theta^k((u,v), \mathbf{j}, t_l)\]

其中 \((u,v)\) 为核中心的平面坐标，\(\mathbf{j}\) 为核模板原始光线，\(t_l\) 为时间嵌入。最终优化光线为 \(\mathbf{r}_j = \mathbf{j} + \Delta\mathbf{j}\)。

稀疏核卷积：\(\mathbf{b}_p = \sum_{j \in S(p)} \mathbf{c}_j g_j\)，约束 \(\sum g_j = 1\) 保证亮度一致性。

设计动机：DoF渲染原本基于图像层，NeRF基于光线采样，需要将核从层级转换为光线级。稀疏核（5个点、半径10）大幅降低了计算开销，同时通过可学习的变形适应真实世界的空间变化模糊。

3. 动态-静态场景融合与跨时间渲染¶

功能：用两个独立MLP分别建模静态和动态场景，并通过跨时间渲染建立时间一致性。

静态MLP \(G_\theta^{st}\)：输出颜色 \(\mathbf{c}\)、密度 \(\sigma\) 和混合权重 \(\eta\)
动态MLP \(G_\theta^{dy}\)：输出颜色 \(\mathbf{c}_t\)、密度 \(\sigma_t\)、场景流 \(f_t\) 和遮挡权重 \(\mathcal{W}_t\)
融合渲染通过 \(\eta(t)\) 加权静态和动态颜色
跨时间渲染：利用场景流将相邻帧的采样点变形到目标帧，通过分层DoF体积渲染计算跨时间颜色，建立时间一致性

损失函数 / 训练策略¶

总损失包含： - 混合渲染损失 \(\mathcal{L}_{color}^b\)：融合结果与GT的L2损失 - 动态渲染损失 \(\mathcal{L}_{color}^t\)：约束单独的动态渲染结果 - 跨时间损失 \(\mathcal{L}_{cross}\)：相邻帧变形渲染与GT的加权L2损失，权重由遮挡置信度控制 - 数据先验损失 \(\mathcal{L}_{data}\)：尺度不变单目深度损失 + 场景流一致性和L1正则

训练细节：Adam优化器，学习率 \(5 \times 10^{-4}\)，每场景 250k 迭代，单卡 RTX 3090 约两天。使用 COLMAP 估计相机参数，RAFT 和 DPT 提供光流和深度先验。

实验关键数据¶

数据集¶

从 VDW 立体数据集收集8个动态场景，使用 BokehMe 管线合成散焦模糊。图像分辨率 \(940 \times 360\)，焦距沿场景视差渐变，模拟真实对焦过程。左视角散焦图像用于训练，右视角清晰图像用于评估。

主实验¶

方法	PSNR↑	SSIM↑	LPIPS↓
DVS [Gao et al.]	25.43	0.764	0.242
RoDynRF [Liu et al.]	26.18	0.770	0.227
HyperNeRF [Park et al.]	26.96	0.780	0.208
NSFF [Li et al.]	27.01	0.803	0.209
[Lee]+RoDynRF (2D去模糊)	25.79	0.776	0.196
[Lee]+DVS (2D去模糊)	24.52	0.757	0.208
\(D^2RF\) (Ours)	27.30	0.816	0.130

\(D^2RF\) 在所有指标上全面超越，LPIPS 提升尤为显著（0.130 vs 次优0.196），说明感知质量大幅改善。2D去模糊预处理反而可能引入视角间不一致而降低性能。

消融实验¶

配置	PSNR↑ (全图)	SSIM↑	LPIPS↓	说明
w/o cross-time	22.61	0.725	0.232	跨时间渲染对时间一致性至关重要
w/o layered volume	27.11	0.811	0.211	分层体积渲染带来更精确的模糊建模
w/o optimized kernel	27.25	0.795	0.216	优化核提供高效的模糊拟合管线
w/o static	26.20	0.769	0.177	独立静态表示稳定训练
Full (Ours)	27.30	0.816	0.130	所有组件协同达到最佳

关键发现¶

去除跨时间渲染导致 PSNR 骤降 4.7dB（动态区域），说明时间一致性对动态场景至关重要
分层DoF体积渲染比后处理式模糊建模更准确，LPIPS从0.211降至0.130
3D空间中建模散焦模糊（本文）显著优于2D逐帧去模糊+动态NeRF的两阶段方案
2D去模糊预处理有时反而使性能更差（RoDynRF+去模糊 < RoDynRF原始），因为各帧独立去模糊破坏了多视角一致性

亮点与洞察¶

优雅的理论联系：发现DoF渲染层可见性与体积渲染不透明度的等价性，自然地将两个渲染框架统一
从后处理到内嵌：将模糊建模从渲染后挪到渲染过程中，是范式性的改进
问题定义价值：首次定义并解决"散焦动态NeRF"这一实际且重要的问题

局限与展望¶

无法处理极端散焦模糊
训练耗时长（单场景约2天），推理速度慢（13秒/帧）
合成数据集评估，未在真实散焦视频上验证
依赖 COLMAP 相机参数估计，散焦模糊可能影响特征匹配精度
可探索与3D Gaussian Splatting结合以加速

评分¶

新颖性: ⭐⭐⭐⭐ — 首次统一DoF渲染与NeRF体积渲染，问题定义新颖
实验充分度: ⭐⭐⭐ — 8场景合成数据集充分消融，但缺少真实数据验证
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，图示直观，公式与直觉解释并行
价值: ⭐⭐⭐⭐ — 解决实际拍摄中不可避免的散焦问题，具有实用价值