Fused-Planes: Why Train a Thousand Tri-Planes When You Can Share?¶

会议: ICLR 2026
arXiv: 2410.23742
代码: https://fused-planes.github.io
领域: 3D视觉 / 大规模3D重建
关键词: tri-plane, NeRF, shared representation, large-scale 3D, latent space

一句话总结¶

提出 Fused-Planes，通过宏观-微观分解将 Tri-Plane 表示分为共享的类级基平面（macro）和对象特有的细节平面（micro），结合潜空间渲染，实现 7× 训练加速、3× 内存压缩，同时保持甚至超越独立 Tri-Plane 的重建质量。

研究背景与动机¶

领域现状：Tri-Planar NeRF 是强大的 3D 表示（与 2D 视觉模型兼容），但大规模场景重建需要为每个对象独立训练——千个对象 = 千次训练，计算成本极高。
现有痛点：(a) 独立训练忽视了同类对象间的结构相似性；(b) 已有共享表示方法（CodeNeRF）要么扩展性差（C3-NeRF 仅 20 场景），要么缺乏平面结构的优势。
切入角度：同类 3D 对象（如同类汽车）共享大量几何/纹理模式。将每个对象的 Tri-Plane 分解为"共享基底的加权组合 + 对象特有残差"，大幅减少重复计算。
核心idea一句话：\(T_i = T_i^{mic} \oplus (W_i \cdot \mathcal{B})\)——每个对象的 Tri-Plane 由少量共享基平面的加权和（macro）加上对象特有的微观特征（micro）组成。

方法详解¶

整体框架¶

训练 M=50 个共享基平面 \(\mathcal{B} = \{B_1, ..., B_{50}\}\) + 每个对象的微观平面 \(T_i^{mic}\) 和权重 \(W_i\) → 拼接得到 Fused-Plane → 在潜空间渲染 → 解码器恢复 RGB。

关键设计¶

宏观-微观分解：macro 平面 \(T_i^{mac} = \sum_k w_i^k B_k\) 编码类级共享特征（22维），micro 平面 \(T_i^{mic}\) 编码对象特有细节（10维），拼接为 32 维特征。每个对象仅需存储微观平面（480KB）+权重向量（811B），而非完整 1.5MB Tri-Plane。
潜空间渲染：联合训练图像自编码器（基于 SD VAE），在低维潜空间而非 RGB 空间渲染，降低渲染分辨率并加速训练。关键：自编码器与 Fused-Planes 联合训练（非预训练），保证质量。
两阶段训练策略：Regime 1 用前 500 个对象联合优化所有组件（基平面 + 编码器 + 解码器）；Regime 2 冻结编码器，训练剩余对象——因为编码器在 R1 已收敛。

损失函数¶

\(\mathcal{L} = \mathcal{L}^{latent} + \mathcal{L}^{RGB} + 0.1 \cdot \mathcal{L}^{ae}\)

三个损失分别监督潜空间渲染、RGB 解码和自编码器重建。

实验关键数据¶

主实验¶

方法	训练(min/obj)	存储(MB/obj)	ShapeNet PSNR	FPS
Tri-Planes	64.32	1.50	28.15	42.9
K-Planes	75.35	410.17	30.88	14.3
Fused-Planes	8.96	0.48	30.47	91.3
Fused-Planes-ULW	7.16	0.0008	29.02	-

Fused-Planes 比 Tri-Planes: 7.2× 快，3.2× 省存储，PSNR 高 2.32dB，渲染速度 2.1× 快。

消融实验¶

配置	PSNR	训练(min)	存储(MB)
RGB空间（无潜空间）	27.71	63.52	0.48
仅micro（无共享）	27.64	12.84	1.50
M=1 基平面	27.69	8.48	0.48
M=50 基平面	28.64	8.92	0.48
M=75 基平面	29.62	8.99	1348 总

关键发现¶

潜空间渲染是加速关键：RGB→潜空间训练从 63.52 降至 8.92 分钟（7.1×加速），且质量不降
共享基平面有效：M=50 是最优选择；更多基平面性能递减且增加内存
ULW 变体极端压缩：完全不用 micro 平面，每个对象仅需 811B（权重向量），PSNR 仍达 29.02
多类训练可行：跨 4 个 ShapeNet 类训练仅有轻微质量下降
规模化收益：10000 对象时总内存仅 5GB（Tri-Planes 14.6GB，K-Planes 4TB）

亮点与洞察¶

微观-宏观分解思想可迁移到其他 3D 表示——任何基于逐对象优化的方法都可以尝试提取共享基底
潜空间渲染与表示学习联合训练是关键——预训练的 VAE 无法适应 NeRF 的特殊分布
在保持平面结构（2D 兼容）的前提下实现了接近 Instant-NGP 的训练速度，这对下游生成任务（如用平面做 diffusion）非常有价值

局限性 / 可改进方向¶

质量上限受限于 Tri-Plane 本身（30.47 vs TensoRF 36.74）——共享加速但不提升表示上限
需要预先定义基平面数量 M，不同类别的最优 M 可能不同
仅在合成数据（ShapeNet + Basel Faces）上验证，真实场景泛化未知
编码器冻结策略在类别分布变化大时可能失效

评分¶

新颖性: ⭐⭐⭐⭐ 微观-宏观分解思路简洁有效，潜空间联合训练有洞察
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多基线、全面消融、规模化分析、渲染速度评估
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，实验详尽，表格丰富
价值: ⭐⭐⭐⭐ 大规模 3D 重建的实用加速方案，与下游生成任务兼容