跳转至

Invertible Neural Warp for NeRF

会议: ECCV 2024
arXiv: 2407.12354
代码: 项目主页
领域: 3D视觉
关键词: NeRF, 位姿估计, 可逆神经网络, 过参数化, 联合优化

一句话总结

提出用可逆神经网络(INN)过参数化相机位姿的刚性变换函数,在 NeRF 联合优化中显著提升位姿估计精度和重建质量,证明可逆性是 MLP 建模刚性 warp 的关键约束。

研究背景与动机

领域现状: NeRF 通过体渲染实现高质量新视图合成,但需要精确已知的相机位姿。BARF、NeRFmm、GARF 等方法实现了位姿与 NeRF 的联合优化,通常用 6 维 \(SE(3)\) 紧凑表示相机位姿。

现有痛点: 紧凑的 \(SE(3)\) 参数化在与 NeRF 联合优化时存在收敛盆地小的问题,容易陷入局部极小值,导致位姿估计不准。

核心矛盾: 深度学习领域已证明过参数化能改善优化收敛性,但简单用 MLP 过参数化位姿(Naive 方式)在实践中反而完全失败——收敛成功率为 0%。原因在于 MLP 不保证变换的可逆性(双射性)。

本文目标: 如何正确地过参数化 NeRF 中的相机位姿以利用过参数化的优化优势。

切入角度: 将相机位姿建模为光线的刚性 warp 函数,而非全局旋转+平移。用 INN 结构化地保证 warp 的可逆性。

核心 idea: 可逆性是 MLP 过参数化刚性 warp 的必要约束——INN 在架构层面天然保证双射性,无需额外辅助网络。

方法详解

整体框架

传统 BARF 类方法将每帧位姿表示为 \(P = (\mathbf{R}_t, \mathbf{t}_t) \in SE(3)\),用于将相机坐标系中的光线变换到世界坐标系。本文替换为一个全局共享的 INN \(h_{\mathbf{\Theta}_\mathcal{W}}\),配合每帧可学习的 latent code \(\Phi_t \in \mathbb{R}^D\)

\[h(\mathbf{r}^{(C)}; \mathbf{\Theta}_\mathcal{W}, \Phi_t): \mathbb{R}^{3+D} \to \mathbb{R}^3\]

INN 接收相机坐标系中的像素位置 \(\mathbf{x}_{i,t}^{(C)}\) 和帧特定 latent code \(\Phi_t\),输出世界坐标系中的对应位置 \(\mathbf{x}_{i,t}^{(W)}\)

最终优化问题为:

\[\min_{\Phi_t, \mathbf{\Theta}_\mathcal{W}, \mathbf{\Theta}_{rgb}} \sum_{t=1}^{T} \sum_{\mathbf{u}} \|\hat{\mathcal{I}}(h(\mathbf{r}^{(c)}; \mathbf{\Theta}_\mathcal{W}, \Phi_t); \mathbf{\Theta}_{rgb}) - \mathcal{I}_i(\mathbf{u})\|_2^2 + \lambda \mathcal{L}_{rigid}\]

关键设计

  1. 可逆神经网络(INN)表示位姿: 相较于传统 \(SE(3)\) 的 6 参数表示,INN 将每个像素视为独立光线,学习从相机坐标到世界坐标的映射。INN 通过组合仿射变换块实现双射映射,每个块将输入分为两段——第一段不变并参数化第二段的变换。

核心优势: - 架构保证可逆性,无需辅助网络 - 同一 INN 所有帧共享,参数高效 - INN 预测的是同胚变换(homeomorphism),比刚性变换更灵活,提供更平滑的优化轨迹

设计动机:\(SE(3)\) 参数化虽然精确,但收敛盆地小;MLP 过参数化带来更好的优化景观,但必须保证双射性——否则一个世界点可能对应多个相机点,导致优化崩溃。

  1. 刚性先验约束(Rigidity Prior): 由于每个像素被独立处理,INN 输出不天然满足全局刚性运动。引入刚性正则化,利用已知的相机-世界对应关系求解闭式刚性配准:
\[\mathcal{L}_{rigid} = \min_{T^*} \sum_{i=1}^{L} \|\mathbf{x}_{i,t}^{(C)} - T^* \circ \mathbf{x}_{i,t}^{(W)}\|_2^2\]

在 2D 实验中用 DLT 求解 homography,3D 实验中用 Umeyama 算法求解 \(SE(3)\)。该约束在不破坏 INN 灵活性的同时,将输出拉向全局一致的刚性变换。

  1. 隐式 vs. 显式可逆性对比: 论文系统比较了三种过参数化策略:

    • Naive MLP:仅用前向网络 \(h_{fwd}\),不保证可逆——成功率 0%
    • Implicit-Invertible MLP:双网络 \(h_{fwd} + h_{bwd}\),通过一致性损失 \(\|x^{(C)} - \hat{x}^{(C)}\|_2^2\) 近似可逆——成功率 65%,但计算量翻倍
    • Explicit-Invertible INN(本文):架构保证可逆——成功率 75%,且无额外计算开销

损失函数 / 训练策略

总损失 = NeRF 光度损失 + 刚性先验:

\[\mathcal{L} = \sum_{t=1}^{T} \sum_{\mathbf{u}} \|\hat{\mathcal{I}} - \mathcal{I}_i\|_2^2 + \lambda \mathcal{L}_{rigid}\]
  • 使用 Adam 优化器,\(\mathbf{\Theta}_{rgb}\) 学习率从 \(1\times10^{-3}\) 衰减到 \(3\times10^{-4}\)
  • \(\mathbf{\Theta}_\mathcal{W}\) 学习率从 \(5\times10^{-4}\) 衰减到 \(1\times10^{-6}\)
  • 每步采样 2048 条光线,训练 200K 迭代
  • 采用 BARF 的粗到精位置编码调度策略
  • INN 架构采用 NDR-INN,latent code 维度 \(D = 16\)

实验关键数据

主实验 — 2D Planar 对齐(20 次 homography 统计)

方法 Corner Error(px)↓ Patch PSNR↑ 成功率↑
BARF 29.63 ± 28.18 28.94 ± 4.38 0.30
Naive MLP 85.59 ± 30.31 25.86 ± 2.07 0.00
Implicit-Invertible 13.92 ± 22.93 33.70 ± 3.93 0.65
INN (Ours) 4.70 ± 6.47 34.71 ± 2.37 0.75

主实验 — LLFF 真实前向场景(8 场景平均)

方法 Rotation(°)↓ Translation(×100)↓ PSNR(前)↑ PSNR(后)↑
BARF 0.90 0.40 17.00 23.82
L2G 0.48 0.30 17.99 24.35
INN (Ours) 0.31 0.24 19.31 24.28

主实验 — DTU 360° 场景(14 场景平均,初始误差 15°)

方法 Rotation(°)↓ Translation(×100)↓ Depth Error↓ Chamfer↓
BARF 2.52 7.07 0.20 6.35
L2G 4.08 11.67 0.22 6.53
INN (Ours) 1.17 3.07 0.13 4.89

消融实验 — 可逆性的关键作用

方法 可逆性保证 成功率(2D) 额外计算
Naive MLP 0%
Implicit-Invertible 近似(双网络) 65% ×2
Explicit-Invertible INN 架构保证 75%

关键发现

  • 过参数化本身不够——可逆性是刚性 warp 学习的必要条件
  • INN 相比 BARF 在旋转精度上提升 ~65%(LLFF)和 ~53%(DTU)
  • 全局共享单个 INN + per-frame latent code 优于每帧独立 INN,梯度共享带来额外收益
  • INN 预测的同胚变换在优化中间阶段呈现非刚性形变,提供更灵活的优化路径以避开局部极小值
  • 在 DTU 360° 场景中,L2G 表现反而不如 BARF,而 INN 始终最优

亮点与洞察

  • 通过系统的 Naive → Implicit → Explicit 对比实验,清晰论证了可逆性的关键作用
  • 同胚(homeomorphism)视角的分析很有启发:INN 在优化过程中可以"暂时变形"以绕过局部极小值
  • 全局共享+frame code 的设计兼顾参数效率和表达能力
  • 刚性先验以软约束形式加入,不破坏 INN 的灵活性

局限与展望

  • 当前仅应用于 vanilla NeRF,未扩展到 3D Gaussian Splatting 等新表示
  • INN 的表达能力受限于特定架构(NDR-INN),可探索更强的可逆架构
  • 未考虑大基线/大旋转角的初始化问题
  • 推理时仍需保持完整的 INN 网络,无法像 \(SE(3)\) 那样用 6 个参数存储最终位姿(可通过 Eq.5 提取)

相关工作与启发

  • BARF: 基础对比方法,粗到精位置编码调度仍被本文沿用
  • L2G: 同为过参数化思路但用 MLP 预测 \(SE(3)\),本文证明直接学 warp 函数 + INN 更优
  • NoPe-NeRF: 利用单目深度先验约束位姿,与本文方法正交可结合
  • 动态 NeRF 的形变场: INN 表示形变已在时间维度上验证有效,本文将其推广到相机位姿空间

评分

  • 新颖性: ⭐⭐⭐⭐ — INN 用于位姿过参数化的思路新颖,可逆性论证充分
  • 实验充分度: ⭐⭐⭐⭐ — 2D/LLFF/DTU 多层次验证,基线对比全面
  • 写作质量: ⭐⭐⭐⭐⭐ — 从 Naive 到 INN 的渐进叙事逻辑清晰
  • 价值: ⭐⭐⭐⭐ — 为 NeRF 位姿优化提供了新范式,可逆性洞察有普适意义

相关论文