Invertible Neural Warp for NeRF¶
会议: ECCV 2024
arXiv: 2407.12354
代码: 项目主页
领域: 3D视觉
关键词: NeRF, 位姿估计, 可逆神经网络, 过参数化, 联合优化
一句话总结¶
提出用可逆神经网络(INN)过参数化相机位姿的刚性变换函数,在 NeRF 联合优化中显著提升位姿估计精度和重建质量,证明可逆性是 MLP 建模刚性 warp 的关键约束。
研究背景与动机¶
领域现状: NeRF 通过体渲染实现高质量新视图合成,但需要精确已知的相机位姿。BARF、NeRFmm、GARF 等方法实现了位姿与 NeRF 的联合优化,通常用 6 维 \(SE(3)\) 紧凑表示相机位姿。
现有痛点: 紧凑的 \(SE(3)\) 参数化在与 NeRF 联合优化时存在收敛盆地小的问题,容易陷入局部极小值,导致位姿估计不准。
核心矛盾: 深度学习领域已证明过参数化能改善优化收敛性,但简单用 MLP 过参数化位姿(Naive 方式)在实践中反而完全失败——收敛成功率为 0%。原因在于 MLP 不保证变换的可逆性(双射性)。
本文目标: 如何正确地过参数化 NeRF 中的相机位姿以利用过参数化的优化优势。
切入角度: 将相机位姿建模为光线的刚性 warp 函数,而非全局旋转+平移。用 INN 结构化地保证 warp 的可逆性。
核心 idea: 可逆性是 MLP 过参数化刚性 warp 的必要约束——INN 在架构层面天然保证双射性,无需额外辅助网络。
方法详解¶
整体框架¶
传统 BARF 类方法将每帧位姿表示为 \(P = (\mathbf{R}_t, \mathbf{t}_t) \in SE(3)\),用于将相机坐标系中的光线变换到世界坐标系。本文替换为一个全局共享的 INN \(h_{\mathbf{\Theta}_\mathcal{W}}\),配合每帧可学习的 latent code \(\Phi_t \in \mathbb{R}^D\):
INN 接收相机坐标系中的像素位置 \(\mathbf{x}_{i,t}^{(C)}\) 和帧特定 latent code \(\Phi_t\),输出世界坐标系中的对应位置 \(\mathbf{x}_{i,t}^{(W)}\)。
最终优化问题为:
关键设计¶
- 可逆神经网络(INN)表示位姿: 相较于传统 \(SE(3)\) 的 6 参数表示,INN 将每个像素视为独立光线,学习从相机坐标到世界坐标的映射。INN 通过组合仿射变换块实现双射映射,每个块将输入分为两段——第一段不变并参数化第二段的变换。
核心优势: - 架构保证可逆性,无需辅助网络 - 同一 INN 所有帧共享,参数高效 - INN 预测的是同胚变换(homeomorphism),比刚性变换更灵活,提供更平滑的优化轨迹
设计动机:\(SE(3)\) 参数化虽然精确,但收敛盆地小;MLP 过参数化带来更好的优化景观,但必须保证双射性——否则一个世界点可能对应多个相机点,导致优化崩溃。
- 刚性先验约束(Rigidity Prior): 由于每个像素被独立处理,INN 输出不天然满足全局刚性运动。引入刚性正则化,利用已知的相机-世界对应关系求解闭式刚性配准:
在 2D 实验中用 DLT 求解 homography,3D 实验中用 Umeyama 算法求解 \(SE(3)\)。该约束在不破坏 INN 灵活性的同时,将输出拉向全局一致的刚性变换。
-
隐式 vs. 显式可逆性对比: 论文系统比较了三种过参数化策略:
- Naive MLP:仅用前向网络 \(h_{fwd}\),不保证可逆——成功率 0%
- Implicit-Invertible MLP:双网络 \(h_{fwd} + h_{bwd}\),通过一致性损失 \(\|x^{(C)} - \hat{x}^{(C)}\|_2^2\) 近似可逆——成功率 65%,但计算量翻倍
- Explicit-Invertible INN(本文):架构保证可逆——成功率 75%,且无额外计算开销
损失函数 / 训练策略¶
总损失 = NeRF 光度损失 + 刚性先验:
- 使用 Adam 优化器,\(\mathbf{\Theta}_{rgb}\) 学习率从 \(1\times10^{-3}\) 衰减到 \(3\times10^{-4}\)
- \(\mathbf{\Theta}_\mathcal{W}\) 学习率从 \(5\times10^{-4}\) 衰减到 \(1\times10^{-6}\)
- 每步采样 2048 条光线,训练 200K 迭代
- 采用 BARF 的粗到精位置编码调度策略
- INN 架构采用 NDR-INN,latent code 维度 \(D = 16\)
实验关键数据¶
主实验 — 2D Planar 对齐(20 次 homography 统计)¶
| 方法 | Corner Error(px)↓ | Patch PSNR↑ | 成功率↑ |
|---|---|---|---|
| BARF | 29.63 ± 28.18 | 28.94 ± 4.38 | 0.30 |
| Naive MLP | 85.59 ± 30.31 | 25.86 ± 2.07 | 0.00 |
| Implicit-Invertible | 13.92 ± 22.93 | 33.70 ± 3.93 | 0.65 |
| INN (Ours) | 4.70 ± 6.47 | 34.71 ± 2.37 | 0.75 |
主实验 — LLFF 真实前向场景(8 场景平均)¶
| 方法 | Rotation(°)↓ | Translation(×100)↓ | PSNR(前)↑ | PSNR(后)↑ |
|---|---|---|---|---|
| BARF | 0.90 | 0.40 | 17.00 | 23.82 |
| L2G | 0.48 | 0.30 | 17.99 | 24.35 |
| INN (Ours) | 0.31 | 0.24 | 19.31 | 24.28 |
主实验 — DTU 360° 场景(14 场景平均,初始误差 15°)¶
| 方法 | Rotation(°)↓ | Translation(×100)↓ | Depth Error↓ | Chamfer↓ |
|---|---|---|---|---|
| BARF | 2.52 | 7.07 | 0.20 | 6.35 |
| L2G | 4.08 | 11.67 | 0.22 | 6.53 |
| INN (Ours) | 1.17 | 3.07 | 0.13 | 4.89 |
消融实验 — 可逆性的关键作用¶
| 方法 | 可逆性保证 | 成功率(2D) | 额外计算 |
|---|---|---|---|
| Naive MLP | 无 | 0% | 无 |
| Implicit-Invertible | 近似(双网络) | 65% | ×2 |
| Explicit-Invertible INN | 架构保证 | 75% | 无 |
关键发现¶
- 过参数化本身不够——可逆性是刚性 warp 学习的必要条件
- INN 相比 BARF 在旋转精度上提升 ~65%(LLFF)和 ~53%(DTU)
- 全局共享单个 INN + per-frame latent code 优于每帧独立 INN,梯度共享带来额外收益
- INN 预测的同胚变换在优化中间阶段呈现非刚性形变,提供更灵活的优化路径以避开局部极小值
- 在 DTU 360° 场景中,L2G 表现反而不如 BARF,而 INN 始终最优
亮点与洞察¶
- 通过系统的 Naive → Implicit → Explicit 对比实验,清晰论证了可逆性的关键作用
- 同胚(homeomorphism)视角的分析很有启发:INN 在优化过程中可以"暂时变形"以绕过局部极小值
- 全局共享+frame code 的设计兼顾参数效率和表达能力
- 刚性先验以软约束形式加入,不破坏 INN 的灵活性
局限与展望¶
- 当前仅应用于 vanilla NeRF,未扩展到 3D Gaussian Splatting 等新表示
- INN 的表达能力受限于特定架构(NDR-INN),可探索更强的可逆架构
- 未考虑大基线/大旋转角的初始化问题
- 推理时仍需保持完整的 INN 网络,无法像 \(SE(3)\) 那样用 6 个参数存储最终位姿(可通过 Eq.5 提取)
相关工作与启发¶
- BARF: 基础对比方法,粗到精位置编码调度仍被本文沿用
- L2G: 同为过参数化思路但用 MLP 预测 \(SE(3)\),本文证明直接学 warp 函数 + INN 更优
- NoPe-NeRF: 利用单目深度先验约束位姿,与本文方法正交可结合
- 动态 NeRF 的形变场: INN 表示形变已在时间维度上验证有效,本文将其推广到相机位姿空间
评分¶
- 新颖性: ⭐⭐⭐⭐ — INN 用于位姿过参数化的思路新颖,可逆性论证充分
- 实验充分度: ⭐⭐⭐⭐ — 2D/LLFF/DTU 多层次验证,基线对比全面
- 写作质量: ⭐⭐⭐⭐⭐ — 从 Naive 到 INN 的渐进叙事逻辑清晰
- 价值: ⭐⭐⭐⭐ — 为 NeRF 位姿优化提供了新范式,可逆性洞察有普适意义
相关论文¶
- [ECCV 2024] Deblur e-NeRF: NeRF from Motion-Blurred Events under High-speed or Low-light Conditions
- [ECCV 2024] MALD-NeRF: Taming Latent Diffusion Model for Neural Radiance Field Inpainting
- [ECCV 2024] The NeRFect Match: Exploring NeRF Features for Visual Localization
- [ECCV 2024] S³D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis
- [ECCV 2024] TrackNeRF: Bundle Adjusting NeRF from Sparse and Noisy Views via Feature Tracks