Invertible Neural Warp for NeRF¶

会议: ECCV 2024
arXiv: 2407.12354
代码: 项目主页
领域: 3D视觉
关键词: NeRF, 位姿估计, 可逆神经网络, 过参数化, 联合优化

一句话总结¶

提出用可逆神经网络（INN）过参数化相机位姿的刚性变换函数，在 NeRF 联合优化中显著提升位姿估计精度和重建质量，证明可逆性是 MLP 建模刚性 warp 的关键约束。

研究背景与动机¶

领域现状: NeRF 通过体渲染实现高质量新视图合成，但需要精确已知的相机位姿。BARF、NeRFmm、GARF 等方法实现了位姿与 NeRF 的联合优化，通常用 6 维 \(SE(3)\) 紧凑表示相机位姿。

现有痛点: 紧凑的 \(SE(3)\) 参数化在与 NeRF 联合优化时存在收敛盆地小的问题，容易陷入局部极小值，导致位姿估计不准。

核心矛盾: 深度学习领域已证明过参数化能改善优化收敛性，但简单用 MLP 过参数化位姿（Naive 方式）在实践中反而完全失败——收敛成功率为 0%。原因在于 MLP 不保证变换的可逆性（双射性）。

本文目标: 如何正确地过参数化 NeRF 中的相机位姿以利用过参数化的优化优势。

切入角度: 将相机位姿建模为光线的刚性 warp 函数，而非全局旋转+平移。用 INN 结构化地保证 warp 的可逆性。

核心 idea: 可逆性是 MLP 过参数化刚性 warp 的必要约束——INN 在架构层面天然保证双射性，无需额外辅助网络。

方法详解¶

整体框架¶

传统 BARF 类方法将每帧位姿表示为 \(P = (\mathbf{R}_t, \mathbf{t}_t) \in SE(3)\)，用于将相机坐标系中的光线变换到世界坐标系。本文替换为一个全局共享的 INN \(h_{\mathbf{\Theta}_\mathcal{W}}\)，配合每帧可学习的 latent code \(\Phi_t \in \mathbb{R}^D\)：

\[h(\mathbf{r}^{(C)}; \mathbf{\Theta}_\mathcal{W}, \Phi_t): \mathbb{R}^{3+D} \to \mathbb{R}^3\]

INN 接收相机坐标系中的像素位置 \(\mathbf{x}_{i,t}^{(C)}\) 和帧特定 latent code \(\Phi_t\)，输出世界坐标系中的对应位置 \(\mathbf{x}_{i,t}^{(W)}\)。

最终优化问题为：

\[\min_{\Phi_t, \mathbf{\Theta}_\mathcal{W}, \mathbf{\Theta}_{rgb}} \sum_{t=1}^{T} \sum_{\mathbf{u}} \|\hat{\mathcal{I}}(h(\mathbf{r}^{(c)}; \mathbf{\Theta}_\mathcal{W}, \Phi_t); \mathbf{\Theta}_{rgb}) - \mathcal{I}_i(\mathbf{u})\|_2^2 + \lambda \mathcal{L}_{rigid}\]

关键设计¶

可逆神经网络（INN）表示位姿: 相较于传统 \(SE(3)\) 的 6 参数表示，INN 将每个像素视为独立光线，学习从相机坐标到世界坐标的映射。INN 通过组合仿射变换块实现双射映射，每个块将输入分为两段——第一段不变并参数化第二段的变换。

核心优势： - 架构保证可逆性，无需辅助网络 - 同一 INN 所有帧共享，参数高效 - INN 预测的是同胚变换（homeomorphism），比刚性变换更灵活，提供更平滑的优化轨迹

设计动机：\(SE(3)\) 参数化虽然精确，但收敛盆地小；MLP 过参数化带来更好的优化景观，但必须保证双射性——否则一个世界点可能对应多个相机点，导致优化崩溃。

刚性先验约束（Rigidity Prior）: 由于每个像素被独立处理，INN 输出不天然满足全局刚性运动。引入刚性正则化，利用已知的相机-世界对应关系求解闭式刚性配准：

\[\mathcal{L}_{rigid} = \min_{T^*} \sum_{i=1}^{L} \|\mathbf{x}_{i,t}^{(C)} - T^* \circ \mathbf{x}_{i,t}^{(W)}\|_2^2\]

在 2D 实验中用 DLT 求解 homography，3D 实验中用 Umeyama 算法求解 \(SE(3)\)。该约束在不破坏 INN 灵活性的同时，将输出拉向全局一致的刚性变换。

隐式 vs. 显式可逆性对比: 论文系统比较了三种过参数化策略：
- Naive MLP：仅用前向网络 \(h_{fwd}\)，不保证可逆——成功率 0%
- Implicit-Invertible MLP：双网络 \(h_{fwd} + h_{bwd}\)，通过一致性损失 \(\|x^{(C)} - \hat{x}^{(C)}\|_2^2\) 近似可逆——成功率 65%，但计算量翻倍
- Explicit-Invertible INN（本文）：架构保证可逆——成功率 75%，且无额外计算开销

损失函数 / 训练策略¶

总损失 = NeRF 光度损失 + 刚性先验：

\[\mathcal{L} = \sum_{t=1}^{T} \sum_{\mathbf{u}} \|\hat{\mathcal{I}} - \mathcal{I}_i\|_2^2 + \lambda \mathcal{L}_{rigid}\]

使用 Adam 优化器，\(\mathbf{\Theta}_{rgb}\) 学习率从 \(1\times10^{-3}\) 衰减到 \(3\times10^{-4}\)
\(\mathbf{\Theta}_\mathcal{W}\) 学习率从 \(5\times10^{-4}\) 衰减到 \(1\times10^{-6}\)
每步采样 2048 条光线，训练 200K 迭代
采用 BARF 的粗到精位置编码调度策略
INN 架构采用 NDR-INN，latent code 维度 \(D = 16\)

实验关键数据¶

主实验 — 2D Planar 对齐（20 次 homography 统计）¶

方法	Corner Error(px)↓	Patch PSNR↑	成功率↑
BARF	29.63 ± 28.18	28.94 ± 4.38	0.30
Naive MLP	85.59 ± 30.31	25.86 ± 2.07	0.00
Implicit-Invertible	13.92 ± 22.93	33.70 ± 3.93	0.65
INN (Ours)	4.70 ± 6.47	34.71 ± 2.37	0.75

主实验 — LLFF 真实前向场景（8 场景平均）¶

方法	Rotation(°)↓	Translation(×100)↓	PSNR(前)↑	PSNR(后)↑
BARF	0.90	0.40	17.00	23.82
L2G	0.48	0.30	17.99	24.35
INN (Ours)	0.31	0.24	19.31	24.28

主实验 — DTU 360° 场景（14 场景平均，初始误差 15°）¶

方法	Rotation(°)↓	Translation(×100)↓	Depth Error↓	Chamfer↓
BARF	2.52	7.07	0.20	6.35
L2G	4.08	11.67	0.22	6.53
INN (Ours)	1.17	3.07	0.13	4.89

消融实验 — 可逆性的关键作用¶

方法	可逆性保证	成功率(2D)	额外计算
Naive MLP	无	0%	无
Implicit-Invertible	近似（双网络）	65%	×2
Explicit-Invertible INN	架构保证	75%	无

关键发现¶

过参数化本身不够——可逆性是刚性 warp 学习的必要条件
INN 相比 BARF 在旋转精度上提升 ~65%（LLFF）和 ~53%（DTU）
全局共享单个 INN + per-frame latent code 优于每帧独立 INN，梯度共享带来额外收益
INN 预测的同胚变换在优化中间阶段呈现非刚性形变，提供更灵活的优化路径以避开局部极小值
在 DTU 360° 场景中，L2G 表现反而不如 BARF，而 INN 始终最优

亮点与洞察¶

通过系统的 Naive → Implicit → Explicit 对比实验，清晰论证了可逆性的关键作用
同胚（homeomorphism）视角的分析很有启发：INN 在优化过程中可以"暂时变形"以绕过局部极小值
全局共享+frame code 的设计兼顾参数效率和表达能力
刚性先验以软约束形式加入，不破坏 INN 的灵活性

局限与展望¶

当前仅应用于 vanilla NeRF，未扩展到 3D Gaussian Splatting 等新表示
INN 的表达能力受限于特定架构（NDR-INN），可探索更强的可逆架构
未考虑大基线/大旋转角的初始化问题
推理时仍需保持完整的 INN 网络，无法像 \(SE(3)\) 那样用 6 个参数存储最终位姿（可通过 Eq.5 提取）

评分¶

新颖性: ⭐⭐⭐⭐ — INN 用于位姿过参数化的思路新颖，可逆性论证充分
实验充分度: ⭐⭐⭐⭐ — 2D/LLFF/DTU 多层次验证，基线对比全面
写作质量: ⭐⭐⭐⭐⭐ — 从 Naive 到 INN 的渐进叙事逻辑清晰
价值: ⭐⭐⭐⭐ — 为 NeRF 位姿优化提供了新范式，可逆性洞察有普适意义