Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?¶
会议: ICLR 2026
arXiv: 2410.23742
代码: https://fused-planes.github.io
领域: 3D视觉 / 大规模3D重建
关键词: tri-plane, NeRF, shared representation, large-scale 3D, latent space
一句话总结¶
提出 Fused-Planes,通过宏观-微观分解将 Tri-Plane 表示分为共享的类级基平面(macro)和对象特有的细节平面(micro),结合潜空间渲染,实现 7× 训练加速、3× 内存压缩,同时保持甚至超越独立 Tri-Plane 的重建质量。
研究背景与动机¶
-
领域现状:Tri-Planar NeRF 是强大的 3D 表示(与 2D 视觉模型兼容),但大规模场景重建需要为每个对象独立训练——千个对象 = 千次训练,计算成本极高。
-
现有痛点:(a) 独立训练忽视了同类对象间的结构相似性;(b) 已有共享表示方法(CodeNeRF)要么扩展性差(C3-NeRF 仅 20 场景),要么缺乏平面结构的优势。
-
切入角度:同类 3D 对象(如同类汽车)共享大量几何/纹理模式。将每个对象的 Tri-Plane 分解为"共享基底的加权组合 + 对象特有残差",大幅减少重复计算。
-
核心idea一句话:\(T_i = T_i^{mic} \oplus (W_i \cdot \mathcal{B})\)——每个对象的 Tri-Plane 由少量共享基平面的加权和(macro)加上对象特有的微观特征(micro)组成。
方法详解¶
整体框架¶
训练 M=50 个共享基平面 \(\mathcal{B} = \{B_1, ..., B_{50}\}\) + 每个对象的微观平面 \(T_i^{mic}\) 和权重 \(W_i\) → 拼接得到 Fused-Plane → 在潜空间渲染 → 解码器恢复 RGB。
关键设计¶
-
宏观-微观分解:macro 平面 \(T_i^{mac} = \sum_k w_i^k B_k\) 编码类级共享特征(22维),micro 平面 \(T_i^{mic}\) 编码对象特有细节(10维),拼接为 32 维特征。每个对象仅需存储微观平面(480KB)+权重向量(811B),而非完整 1.5MB Tri-Plane。
-
潜空间渲染:联合训练图像自编码器(基于 SD VAE),在低维潜空间而非 RGB 空间渲染,降低渲染分辨率并加速训练。关键:自编码器与 Fused-Planes 联合训练(非预训练),保证质量。
-
两阶段训练策略:Regime 1 用前 500 个对象联合优化所有组件(基平面 + 编码器 + 解码器);Regime 2 冻结编码器,训练剩余对象——因为编码器在 R1 已收敛。
损失函数¶
\(\mathcal{L} = \mathcal{L}^{latent} + \mathcal{L}^{RGB} + 0.1 \cdot \mathcal{L}^{ae}\)
三个损失分别监督潜空间渲染、RGB 解码和自编码器重建。
实验关键数据¶
主实验¶
| 方法 | 训练(min/obj) | 存储(MB/obj) | ShapeNet PSNR | FPS |
|---|---|---|---|---|
| Tri-Planes | 64.32 | 1.50 | 28.15 | 42.9 |
| K-Planes | 75.35 | 410.17 | 30.88 | 14.3 |
| Fused-Planes | 8.96 | 0.48 | 30.47 | 91.3 |
| Fused-Planes-ULW | 7.16 | 0.0008 | 29.02 | - |
Fused-Planes 比 Tri-Planes: 7.2× 快,3.2× 省存储,PSNR 高 2.32dB,渲染速度 2.1× 快。
消融实验¶
| 配置 | PSNR | 训练(min) | 存储(MB) |
|---|---|---|---|
| RGB空间(无潜空间) | 27.71 | 63.52 | 0.48 |
| 仅micro(无共享) | 27.64 | 12.84 | 1.50 |
| M=1 基平面 | 27.69 | 8.48 | 0.48 |
| M=50 基平面 | 28.64 | 8.92 | 0.48 |
| M=75 基平面 | 29.62 | 8.99 | 1348 总 |
关键发现¶
- 潜空间渲染是加速关键:RGB→潜空间训练从 63.52 降至 8.92 分钟(7.1×加速),且质量不降
- 共享基平面有效:M=50 是最优选择;更多基平面性能递减且增加内存
- ULW 变体极端压缩:完全不用 micro 平面,每个对象仅需 811B(权重向量),PSNR 仍达 29.02
- 多类训练可行:跨 4 个 ShapeNet 类训练仅有轻微质量下降
- 规模化收益:10000 对象时总内存仅 5GB(Tri-Planes 14.6GB,K-Planes 4TB)
亮点与洞察¶
- 微观-宏观分解思想可迁移到其他 3D 表示——任何基于逐对象优化的方法都可以尝试提取共享基底
- 潜空间渲染与表示学习联合训练是关键——预训练的 VAE 无法适应 NeRF 的特殊分布
- 在保持平面结构(2D 兼容)的前提下实现了接近 Instant-NGP 的训练速度,这对下游生成任务(如用平面做 diffusion)非常有价值
局限性 / 可改进方向¶
- 质量上限受限于 Tri-Plane 本身(30.47 vs TensoRF 36.74)——共享加速但不提升表示上限
- 需要预先定义基平面数量 M,不同类别的最优 M 可能不同
- 仅在合成数据(ShapeNet + Basel Faces)上验证,真实场景泛化未知
- 编码器冻结策略在类别分布变化大时可能失效
相关工作与启发¶
- vs Tri-Planes: 直接替代品——更快、更小、更好,保持平面兼容性
- vs CodeNeRF: CodeNeRF 用 latent code 共享,但没有平面结构;Fused-Planes 保持了平面的 2D 兼容性
- vs Instant-NGP: NGP 训练速度接近但存储 189MB/对象 vs 0.48MB/对象
评分¶
- 新颖性: ⭐⭐⭐⭐ 微观-宏观分解思路简洁有效,潜空间联合训练有洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多基线、全面消融、规模化分析、渲染速度评估
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,实验详尽,表格丰富
- 价值: ⭐⭐⭐⭐ 大规模 3D 重建的实用加速方案,与下游生成任务兼容