Flying with Photons: Rendering Novel Views of Propagating Light¶

会议: ECCV 2024
arXiv: 2404.06493
代码: https://anaghmalik.com/FlyingWithPhotons (项目页面，含代码和数据集)
领域: 3D视觉
关键词: 瞬态成像, 新视角合成, 光传播, 神经辐射场, SPAD

一句话总结¶

提出瞬态场（Transient Field）表示，结合首创的多视点超快成像数据集，首次实现从动态新视角渲染真实场景中传播光的视频，能处理散射、反射、折射和衍射等复杂光传输效果。

研究背景与动机¶

领域现状: 超快相机（如SPAD）能以万亿帧/秒的速度记录光传播视频（瞬态视频），对理解光传输机制有重要价值。同时NeRF等新视角合成方法在常规成像中取得巨大成功。

现有痛点: 现有超快成像系统主要针对单视点采集设计，缺乏多视点瞬态数据集；现有新视角合成方法（NeRF、K-Planes等）设计用于光速不重要的时间尺度，无法处理皮秒级时间分辨率下光传播延迟带来的视角依赖效应。

核心矛盾: 在超快时间尺度下，相机到场景的距离直接影响测量结果（光速延迟），这与现有视频合成方法假设的"时间尺度远大于光传播时间"完全相反。如何在体积渲染框架中正确建模有限光速效应是核心挑战。

本文目标: 从多视点捕获的瞬态视频中学习3D表示，并从任意（包括动态）新视角渲染光传播视频。

切入角度: 定义一种新的瞬态场表示——将3D点和视角方向映射到高维离散时间信号，并在体积渲染方程中引入光传播延迟项。同时构建实物多视点SPAD采集系统提供训练数据。

核心 idea: 在NeRF框架中用瞬态场替代辐射场，用时间位移卷积建模光速延迟，从而实现光传播的新视角合成。

方法详解¶

整体框架¶

系统包含两部分：(1) 硬件采集系统: 基于旋转台+仰角臂的扫描SPAD系统，配合532nm脉冲激光，从半球面多视点采集皮秒级瞬态视频；(2) 渲染框架: 基于Instant-NGP的神经网络学习密度场和瞬态场，通过修改的体积渲染方程（含传播延迟项）合成新视角瞬态视频。

关键设计¶

SPAD测量模型:
- 功能: 建立从场景脉冲响应到SPAD光子计数的前向模型。
- 核心思路: 探测器在宽度为 \(W\) 的时间窗口内集中光子：\(\lambda_{\mathbf{r}}[n] \propto \int_{nW}^{(n+1)W} h(\mathbf{r}, t) \, dt\)。光子到达服从非齐次泊松过程：\(\tilde{\tau}_{\mathbf{r}}[n] \sim \text{Poisson}(P\eta\lambda_{\mathbf{r}}[n] + B)\)，其中 \(P\) 为激光脉冲数，\(\eta\) 为探测效率，\(B\) 为背景噪声。
- 设计动机: 物理精确的测量模型确保学到的表示与真实传感器一致。在低通量条件下（<5%探测率）可忽略死时间等二阶效应。
瞬态场（Transient Field）:
- 功能: 定义一种新的神经场表示，输出高维离散时间信号而非单一辐射值。
- 核心思路: 瞬态场 \(\boldsymbol{\tau}_\theta: (\mathbf{r}(s), \mathbf{d}) \mapsto \mathbb{R}_+^N\) 将3D点和方向映射到 \(N\) 维瞬态向量。密度场 \(\sigma(\mathbf{r}(s))\) 仍为标量。关键创新在于修改的体积渲染方程： \(\boldsymbol{\tau}_{\mathbf{r}} = \int_{s_n}^{s_f} T(s)\sigma(\mathbf{r}(s)) \left[\boldsymbol{\tau}_\theta(\mathbf{r}(s), \mathbf{d}) * \delta\left[n - \|\mathbf{r}(s) - \mathbf{o}\|/(cW)\right]\right] ds\) 其中 \(*\) 表示卷积，\(\delta[\cdot]\) 为Kronecker delta函数实现时间位移。每个采样点的瞬态信号根据该点到相机中心的距离 \(\|\mathbf{r}(s) - \mathbf{o}\|\) 进行光速延迟（\(c\) 为光速）。
- 设计动机: 如果不建模传播延迟，同一3D点在不同视角下的瞬态会有不同的时间偏移，导致映射歧义性。通过显式建模延迟，可以学到规范的时空表示。
时间扭曲（Time Warping）:
- 功能: 通过添加或移除传播延迟来实现不同的可视化方式。
- 核心思路: 基于深度的时间扭曲移除场景点到相机的传播延迟，使用预期光线终止距离计算延迟量。扭曲后的可视化在不同视角下具有一致的外观。
- 设计动机: 在动态相机渲染中，视角依赖的传播延迟使得可视化难以理解。时间扭曲提供更直觉化的光传播可视化。
相对论渲染扩展:
- 功能: 模拟相机以相对论速度运动时的视觉效果。
- 核心思路: 建模四种相对论效应：(1) 时间膨胀；(2) 洛伦兹收缩导致的焦距变形；(3) 光行差（光线向运动方向压缩弯曲）；(4) 探照灯效应（朝光源运动时光子通量增大）。
- 设计动机: 在超快时间尺度下，相机运动可观察到相对论效应，增加了方法的物理完备性和展示效果。

损失函数 / 训练策略¶

损失函数: L2损失 + gamma压缩：\(\mathcal{L} = \sum_{v,\mathbf{r},n} \|g(\tilde{\tau}_{\mathbf{r}}^{(v)}[n]) - \tau_{\mathbf{r}}^{(v)}[n]\|_2^2\)，其中 \(g(x) = x^{1/\gamma}\) 用于压缩高动态范围
gamma参数: 仿真数据 \(\gamma=5\)，实拍数据 \(\gamma=2\)
优化器: Adam，学习率在50%, 75%, 90%训练进度时乘以0.33退火
训练量: 仿真场景500K迭代/约10小时，实拍场景1M迭代/约20小时（A40 GPU）
基于NerfAcc的Instant-NGP实现

实验关键数据¶

主实验（仿真数据）¶

方法	参数量	渲染时间	PSNR(dB)↑	LPIPS↓	SSIM↑	T-IOU↑
T-NeRF	15M	7.1s	26.35	0.338	0.887	0.729
K-Planes	37M	320.7s	20.55	0.431	0.666	0.358
无传播延迟	15M	11.9s	27.79	0.334	0.861	0.334
本文方法	15M	12.8s	32.97	0.247	0.965	0.830

实拍数据¶

方法	参数量	渲染时间	PSNR↑	LPIPS↓	SSIM↑	T-IOU↑
K-Planes	43M	37min	24.12	0.516	0.594	0.395
无传播延迟	15M	5.78s	17.12	0.529	0.346	0.174
本文方法	15M	28.0s	24.95	0.431	0.666	0.468

关键发现¶

传播延迟建模至关重要: 去掉传播延迟后PSNR从32.97降到27.79（仿真），从24.95降到17.12（实拍），T-IOU大幅下降。这证明显式建模光速延迟是超快时间尺度新视角合成的关键。
T-NeRF局限: T-NeRF仅能恢复直接光分量，无法建模间接光传输效果（多次散射、折射等）。
K-Planes效率低: K-Planes每个时间帧需要单独渲染，导致渲染时间比本文方法长25×（仿真）到80×（实拍）。
直接-全局分离: 通过高斯混合模型预处理瞬态数据，可分别训练直接和全局光传输分量模型，实现3D可视化的直接-全局分离。

亮点与洞察¶

首创性工作: 首次实现真实场景中光传播的多视角新视角合成，填补了超快成像与神经渲染交叉领域的空白
物理建模的优雅集成: 在体积渲染方程中通过卷积+Kronecker delta优雅地引入光速延迟——这是核心贡献，数学上简洁且物理上正确
完整的系统贡献: 不仅提供算法，还构建了硬件采集系统和首个多视点瞬态视频数据集，开源代码和数据
新评估指标: 提出Transient IoU (T-IOU)用于评估合成瞬态的时间精度
丰富的扩展应用: 时间扭曲、相对论渲染、直接-全局分离展示了框架的灵活性

局限与展望¶

采集时间较长（单个瞬态视频20-30分钟），限制在静态场景
实拍数据分辨率512×512，时间分辨率约70ps，与理论极限仍有差距
目前只处理灰度瞬态（实拍），彩色仅在仿真中实现
可利用新兴SPAD阵列实现多视角同步采集，从而支持动态场景
可探索对场景几何、反射率、材质属性的联合推断

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次实现光传播的多视角新视角合成，瞬态场表示和传播延迟建模都极具创新性
实验充分度: ⭐⭐⭐⭐ 仿真+实拍全面验证，多种光传输效果演示，但实拍场景数量有限
写作质量: ⭐⭐⭐⭐⭐ 写作极为清晰，物理模型推导严谨，可视化设计出色（peak-time visualization）
价值: ⭐⭐⭐⭐ 开创了超快成像×神经渲染的新方向，学术价值高，但短期应用场景较窄