跳转至

Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?

会议: ICLR 2026
arXiv: 2410.23742
代码: https://fused-planes.github.io
领域: 3D视觉 / 大规模3D重建
关键词: tri-plane, NeRF, shared representation, large-scale 3D, latent space

一句话总结

提出 Fused-Planes,通过宏观-微观分解将 Tri-Plane 表示分为共享的类级基平面(macro)和对象特有的细节平面(micro),结合潜空间渲染,实现 7× 训练加速、3× 内存压缩,同时保持甚至超越独立 Tri-Plane 的重建质量。

研究背景与动机

  1. 领域现状:Tri-Planar NeRF 是强大的 3D 表示(与 2D 视觉模型兼容),但大规模场景重建需要为每个对象独立训练——千个对象 = 千次训练,计算成本极高。

  2. 现有痛点:(a) 独立训练忽视了同类对象间的结构相似性;(b) 已有共享表示方法(CodeNeRF)要么扩展性差(C3-NeRF 仅 20 场景),要么缺乏平面结构的优势。

  3. 切入角度:同类 3D 对象(如同类汽车)共享大量几何/纹理模式。将每个对象的 Tri-Plane 分解为"共享基底的加权组合 + 对象特有残差",大幅减少重复计算。

  4. 核心idea一句话\(T_i = T_i^{mic} \oplus (W_i \cdot \mathcal{B})\)——每个对象的 Tri-Plane 由少量共享基平面的加权和(macro)加上对象特有的微观特征(micro)组成。

方法详解

整体框架

训练 M=50 个共享基平面 \(\mathcal{B} = \{B_1, ..., B_{50}\}\) + 每个对象的微观平面 \(T_i^{mic}\) 和权重 \(W_i\) → 拼接得到 Fused-Plane → 在潜空间渲染 → 解码器恢复 RGB。

关键设计

  1. 宏观-微观分解:macro 平面 \(T_i^{mac} = \sum_k w_i^k B_k\) 编码类级共享特征(22维),micro 平面 \(T_i^{mic}\) 编码对象特有细节(10维),拼接为 32 维特征。每个对象仅需存储微观平面(480KB)+权重向量(811B),而非完整 1.5MB Tri-Plane。

  2. 潜空间渲染:联合训练图像自编码器(基于 SD VAE),在低维潜空间而非 RGB 空间渲染,降低渲染分辨率并加速训练。关键:自编码器与 Fused-Planes 联合训练(非预训练),保证质量。

  3. 两阶段训练策略:Regime 1 用前 500 个对象联合优化所有组件(基平面 + 编码器 + 解码器);Regime 2 冻结编码器,训练剩余对象——因为编码器在 R1 已收敛。

损失函数

\(\mathcal{L} = \mathcal{L}^{latent} + \mathcal{L}^{RGB} + 0.1 \cdot \mathcal{L}^{ae}\)

三个损失分别监督潜空间渲染、RGB 解码和自编码器重建。

实验关键数据

主实验

方法 训练(min/obj) 存储(MB/obj) ShapeNet PSNR FPS
Tri-Planes 64.32 1.50 28.15 42.9
K-Planes 75.35 410.17 30.88 14.3
Fused-Planes 8.96 0.48 30.47 91.3
Fused-Planes-ULW 7.16 0.0008 29.02 -

Fused-Planes 比 Tri-Planes: 7.2× 快,3.2× 省存储,PSNR 高 2.32dB,渲染速度 2.1× 快。

消融实验

配置 PSNR 训练(min) 存储(MB)
RGB空间(无潜空间) 27.71 63.52 0.48
仅micro(无共享) 27.64 12.84 1.50
M=1 基平面 27.69 8.48 0.48
M=50 基平面 28.64 8.92 0.48
M=75 基平面 29.62 8.99 1348 总

关键发现

  • 潜空间渲染是加速关键:RGB→潜空间训练从 63.52 降至 8.92 分钟(7.1×加速),且质量不降
  • 共享基平面有效:M=50 是最优选择;更多基平面性能递减且增加内存
  • ULW 变体极端压缩:完全不用 micro 平面,每个对象仅需 811B(权重向量),PSNR 仍达 29.02
  • 多类训练可行:跨 4 个 ShapeNet 类训练仅有轻微质量下降
  • 规模化收益:10000 对象时总内存仅 5GB(Tri-Planes 14.6GB,K-Planes 4TB)

亮点与洞察

  • 微观-宏观分解思想可迁移到其他 3D 表示——任何基于逐对象优化的方法都可以尝试提取共享基底
  • 潜空间渲染与表示学习联合训练是关键——预训练的 VAE 无法适应 NeRF 的特殊分布
  • 在保持平面结构(2D 兼容)的前提下实现了接近 Instant-NGP 的训练速度,这对下游生成任务(如用平面做 diffusion)非常有价值

局限性 / 可改进方向

  • 质量上限受限于 Tri-Plane 本身(30.47 vs TensoRF 36.74)——共享加速但不提升表示上限
  • 需要预先定义基平面数量 M,不同类别的最优 M 可能不同
  • 仅在合成数据(ShapeNet + Basel Faces)上验证,真实场景泛化未知
  • 编码器冻结策略在类别分布变化大时可能失效

相关工作与启发

  • vs Tri-Planes: 直接替代品——更快、更小、更好,保持平面兼容性
  • vs CodeNeRF: CodeNeRF 用 latent code 共享,但没有平面结构;Fused-Planes 保持了平面的 2D 兼容性
  • vs Instant-NGP: NGP 训练速度接近但存储 189MB/对象 vs 0.48MB/对象

评分

  • 新颖性: ⭐⭐⭐⭐ 微观-宏观分解思路简洁有效,潜空间联合训练有洞察
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多基线、全面消融、规模化分析、渲染速度评估
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,实验详尽,表格丰富
  • 价值: ⭐⭐⭐⭐ 大规模 3D 重建的实用加速方案,与下游生成任务兼容