跳转至

Flying with Photons: Rendering Novel Views of Propagating Light

会议: ECCV 2024
arXiv: 2404.06493
代码: https://anaghmalik.com/FlyingWithPhotons (项目页面,含代码和数据集)
领域: 3D视觉
关键词: 瞬态成像, 新视角合成, 光传播, 神经辐射场, SPAD

一句话总结

提出瞬态场(Transient Field)表示,结合首创的多视点超快成像数据集,首次实现从动态新视角渲染真实场景中传播光的视频,能处理散射、反射、折射和衍射等复杂光传输效果。

研究背景与动机

领域现状: 超快相机(如SPAD)能以万亿帧/秒的速度记录光传播视频(瞬态视频),对理解光传输机制有重要价值。同时NeRF等新视角合成方法在常规成像中取得巨大成功。

现有痛点: 现有超快成像系统主要针对单视点采集设计,缺乏多视点瞬态数据集;现有新视角合成方法(NeRF、K-Planes等)设计用于光速不重要的时间尺度,无法处理皮秒级时间分辨率下光传播延迟带来的视角依赖效应。

核心矛盾: 在超快时间尺度下,相机到场景的距离直接影响测量结果(光速延迟),这与现有视频合成方法假设的"时间尺度远大于光传播时间"完全相反。如何在体积渲染框架中正确建模有限光速效应是核心挑战。

本文目标: 从多视点捕获的瞬态视频中学习3D表示,并从任意(包括动态)新视角渲染光传播视频。

切入角度: 定义一种新的瞬态场表示——将3D点和视角方向映射到高维离散时间信号,并在体积渲染方程中引入光传播延迟项。同时构建实物多视点SPAD采集系统提供训练数据。

核心 idea: 在NeRF框架中用瞬态场替代辐射场,用时间位移卷积建模光速延迟,从而实现光传播的新视角合成。

方法详解

整体框架

系统包含两部分:(1) 硬件采集系统: 基于旋转台+仰角臂的扫描SPAD系统,配合532nm脉冲激光,从半球面多视点采集皮秒级瞬态视频;(2) 渲染框架: 基于Instant-NGP的神经网络学习密度场和瞬态场,通过修改的体积渲染方程(含传播延迟项)合成新视角瞬态视频。

关键设计

  1. SPAD测量模型:

    • 功能: 建立从场景脉冲响应到SPAD光子计数的前向模型。
    • 核心思路: 探测器在宽度为 \(W\) 的时间窗口内集中光子:\(\lambda_{\mathbf{r}}[n] \propto \int_{nW}^{(n+1)W} h(\mathbf{r}, t) \, dt\)。光子到达服从非齐次泊松过程:\(\tilde{\tau}_{\mathbf{r}}[n] \sim \text{Poisson}(P\eta\lambda_{\mathbf{r}}[n] + B)\),其中 \(P\) 为激光脉冲数,\(\eta\) 为探测效率,\(B\) 为背景噪声。
    • 设计动机: 物理精确的测量模型确保学到的表示与真实传感器一致。在低通量条件下(<5%探测率)可忽略死时间等二阶效应。
  2. 瞬态场(Transient Field):

    • 功能: 定义一种新的神经场表示,输出高维离散时间信号而非单一辐射值。
    • 核心思路: 瞬态场 \(\boldsymbol{\tau}_\theta: (\mathbf{r}(s), \mathbf{d}) \mapsto \mathbb{R}_+^N\) 将3D点和方向映射到 \(N\) 维瞬态向量。密度场 \(\sigma(\mathbf{r}(s))\) 仍为标量。关键创新在于修改的体积渲染方程: \(\boldsymbol{\tau}_{\mathbf{r}} = \int_{s_n}^{s_f} T(s)\sigma(\mathbf{r}(s)) \left[\boldsymbol{\tau}_\theta(\mathbf{r}(s), \mathbf{d}) * \delta\left[n - \|\mathbf{r}(s) - \mathbf{o}\|/(cW)\right]\right] ds\) 其中 \(*\) 表示卷积,\(\delta[\cdot]\) 为Kronecker delta函数实现时间位移。每个采样点的瞬态信号根据该点到相机中心的距离 \(\|\mathbf{r}(s) - \mathbf{o}\|\) 进行光速延迟(\(c\) 为光速)。
    • 设计动机: 如果不建模传播延迟,同一3D点在不同视角下的瞬态会有不同的时间偏移,导致映射歧义性。通过显式建模延迟,可以学到规范的时空表示。
  3. 时间扭曲(Time Warping):

    • 功能: 通过添加或移除传播延迟来实现不同的可视化方式。
    • 核心思路: 基于深度的时间扭曲移除场景点到相机的传播延迟,使用预期光线终止距离计算延迟量。扭曲后的可视化在不同视角下具有一致的外观。
    • 设计动机: 在动态相机渲染中,视角依赖的传播延迟使得可视化难以理解。时间扭曲提供更直觉化的光传播可视化。
  4. 相对论渲染扩展:

    • 功能: 模拟相机以相对论速度运动时的视觉效果。
    • 核心思路: 建模四种相对论效应:(1) 时间膨胀;(2) 洛伦兹收缩导致的焦距变形;(3) 光行差(光线向运动方向压缩弯曲);(4) 探照灯效应(朝光源运动时光子通量增大)。
    • 设计动机: 在超快时间尺度下,相机运动可观察到相对论效应,增加了方法的物理完备性和展示效果。

损失函数 / 训练策略

  • 损失函数: L2损失 + gamma压缩:\(\mathcal{L} = \sum_{v,\mathbf{r},n} \|g(\tilde{\tau}_{\mathbf{r}}^{(v)}[n]) - \tau_{\mathbf{r}}^{(v)}[n]\|_2^2\),其中 \(g(x) = x^{1/\gamma}\) 用于压缩高动态范围
  • gamma参数: 仿真数据 \(\gamma=5\),实拍数据 \(\gamma=2\)
  • 优化器: Adam,学习率在50%, 75%, 90%训练进度时乘以0.33退火
  • 训练量: 仿真场景500K迭代/约10小时,实拍场景1M迭代/约20小时(A40 GPU)
  • 基于NerfAcc的Instant-NGP实现

实验关键数据

主实验(仿真数据)

方法 参数量 渲染时间 PSNR(dB)↑ LPIPS↓ SSIM↑ T-IOU↑
T-NeRF 15M 7.1s 26.35 0.338 0.887 0.729
K-Planes 37M 320.7s 20.55 0.431 0.666 0.358
无传播延迟 15M 11.9s 27.79 0.334 0.861 0.334
本文方法 15M 12.8s 32.97 0.247 0.965 0.830

实拍数据

方法 参数量 渲染时间 PSNR↑ LPIPS↓ SSIM↑ T-IOU↑
K-Planes 43M 37min 24.12 0.516 0.594 0.395
无传播延迟 15M 5.78s 17.12 0.529 0.346 0.174
本文方法 15M 28.0s 24.95 0.431 0.666 0.468

关键发现

  • 传播延迟建模至关重要: 去掉传播延迟后PSNR从32.97降到27.79(仿真),从24.95降到17.12(实拍),T-IOU大幅下降。这证明显式建模光速延迟是超快时间尺度新视角合成的关键。
  • T-NeRF局限: T-NeRF仅能恢复直接光分量,无法建模间接光传输效果(多次散射、折射等)。
  • K-Planes效率低: K-Planes每个时间帧需要单独渲染,导致渲染时间比本文方法长25×(仿真)到80×(实拍)。
  • 直接-全局分离: 通过高斯混合模型预处理瞬态数据,可分别训练直接和全局光传输分量模型,实现3D可视化的直接-全局分离。

亮点与洞察

  • 首创性工作: 首次实现真实场景中光传播的多视角新视角合成,填补了超快成像与神经渲染交叉领域的空白
  • 物理建模的优雅集成: 在体积渲染方程中通过卷积+Kronecker delta优雅地引入光速延迟——这是核心贡献,数学上简洁且物理上正确
  • 完整的系统贡献: 不仅提供算法,还构建了硬件采集系统和首个多视点瞬态视频数据集,开源代码和数据
  • 新评估指标: 提出Transient IoU (T-IOU)用于评估合成瞬态的时间精度
  • 丰富的扩展应用: 时间扭曲、相对论渲染、直接-全局分离展示了框架的灵活性

局限与展望

  • 采集时间较长(单个瞬态视频20-30分钟),限制在静态场景
  • 实拍数据分辨率512×512,时间分辨率约70ps,与理论极限仍有差距
  • 目前只处理灰度瞬态(实拍),彩色仅在仿真中实现
  • 可利用新兴SPAD阵列实现多视角同步采集,从而支持动态场景
  • 可探索对场景几何、反射率、材质属性的联合推断

相关工作与启发

  • vs TransientNeRF: T-NeRF仅处理共轴激光雷达的直接分量,不支持间接光传输。本文方法支持非共轴光源和完整的全局光传输效果。
  • vs K-Planes: 视频新视角合成方法,但不建模传播延迟,每帧需要单独渲染,速度极慢。
  • vs Jarabo et al.: 也探索瞬态视频新视角渲染,但依赖已知几何和单视点数据。本文从多视点联合优化几何和外观,更通用。
  • vs Velten et al.: 原始光飞行可视化工作。本文扩展其时间扭曲技术到体积渲染框架和动态相机。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次实现光传播的多视角新视角合成,瞬态场表示和传播延迟建模都极具创新性
  • 实验充分度: ⭐⭐⭐⭐ 仿真+实拍全面验证,多种光传输效果演示,但实拍场景数量有限
  • 写作质量: ⭐⭐⭐⭐⭐ 写作极为清晰,物理模型推导严谨,可视化设计出色(peak-time visualization)
  • 价值: ⭐⭐⭐⭐ 开创了超快成像×神经渲染的新方向,学术价值高,但短期应用场景较窄

相关论文