Learning 3D-Aware GANs from Unposed Images with Template Feature Field¶

会议: ECCV 2024
arXiv: 2404.05705
代码: 有
领域: 3D视觉
关键词: 3D-aware GAN, 无姿态图像, 模板特征场, 位姿估计, NeRF

一句话总结¶

提出模板特征场(TeFF)，通过联合学习生成辐射场和语义特征场，从无姿态标注的野外图像中自动提取3D模板并在线估计相机位姿，从而实现完整3D几何的生成对抗学习。

研究背景与动机¶

3D-aware GAN近年来取得了显著进展，核心思路是将生成器提升到3D空间（如NeRF），通过体渲染生成2D图像。然而，现有方法（如EG3D）通常假设训练图像的相机位姿分布已知，这在实际应用中是一个很强的限制——为真实图像估计精确相机位姿需要特定的3D先验知识，这对大多数野外物体类别几乎不可行。

为了去除已知位姿的假设，一些方法（CAMPARI、PoF3D、3DGP）尝试用生成器联合学习相机位姿分布和3D内容。但这些方法在多峰位姿分布（如360°可见的物体）上表现不佳，核心原因在于：生成的相机位姿和物体朝向在2D图像空间中是纠缠的。例如，模型可能通过让物体朝不同方向旋转（而非让相机移动）来匹配目标分布，导致生成的3D几何不完整——某些视角的几何从未被观察到。

本文的核心洞察是：将位姿估计从GAN训练中解耦。具体思路是利用自监督语义特征（如DINO特征）的跨实例语义对齐特性——同一类别不同实例的对应语义部位（如汽车的车轮）在特征空间中具有一致性。作者提出学习一个3D语义模板特征场，以此作为规范物体空间，将真实图像的位姿估计转化为2D-3D匹配问题。

方法详解¶

整体框架¶

TeFF在EG3D的基础上进行了关键扩展：生成器不仅生成辐射场（颜色+密度），还生成语义特征场（特征+共享密度）。通过体渲染得到2D RGB图像和2D特征图。利用生成器的均值噪声输入，自动获得类别级3D模板特征场，然后通过2D-3D匹配为每张真实图像在线估计相机位姿。

关键设计¶

生成辐射与特征场:
- 生成器 \(G_\psi\) 将随机噪声 \(\mathbf{z}\) 映射为辐射场和特征场：\(G_\psi: \mathbb{R}^3 \times \mathbb{R}^M \to \mathbb{R}^3 \times \mathbb{R}^F \times \mathbb{R}^+\)，即每个3D点 \(\mathbf{x}\) 输出颜色 \(\mathbf{c}\)、语义特征 \(\mathbf{f}\) 和密度 \(\sigma\)
- 实践中通过两组tri-plane实现，一组用于颜色和密度，一组用于特征
- 体渲染公式：\(\mathbf{c}_r = \sum_{i=1}^N T_i \alpha_i \mathbf{c}_i\)，\(\mathbf{f}_r = \sum_{i=1}^N T_i \alpha_i \mathbf{f}_i\)，颜色和特征共享密度
- 设计动机：共享密度确保语义特征场与辐射场几何一致，而语义特征的跨实例对齐性使位姿估计成为可能
模板特征场(Template Feature Field):
- 通过对生成器做EMA得到 \(\overline{G}_\psi\)，输入均值噪声 \(\mathbf{z}_0\) 即可获得类别级模板特征场
- 模板自动利用了生成模型发现的数据集均值形状
- 使用DINO作为2D语义特征提取器，PCA降维到3个主成分
- 设计动机：均值噪声天然对应类别的"平均外观"，避免了单一实例的特征偏差；DINO特征在不同实例间语义对齐，使2D-3D匹配具备可行性
在线相机位姿估计:
- 相机模型参数化为 \(\boldsymbol{\xi} = (\theta, \phi, \gamma, r)\)，即方位角、仰角、面内旋转和球面半径
- 方位角-仰角离散化：将 \(\theta\) 和 \(\phi\) 分别离散为 \(N_\theta\) 和 \(N_\phi\) 个值（如36×18），从模板渲染出一组2D特征图 \(\{\overline{\mathbf{F}}_k\}\)
- 相位相关估计scale和面内旋转：利用频域方法高效估计 \(r\) 和 \(\gamma\)，避免暴力搜索4维空间
- 位姿采样：计算每个变换后模板 \(\tilde{\mathbf{F}}_k\) 与真实特征 \(\mathbf{F}\) 的MSE，通过softmax温度 \(\tau\) 构建位姿概率分布：\(p(k) = \text{softmax}(-e_k \cdot \tau)\)
- 训练早期温度低（探索更多位姿），后期温度升高（锁定最佳位姿）
- 设计动机：相比建立2D-3D对应点（易混淆左右腿等），全局网格搜索+相位相关更鲁棒高效

损失函数 / 训练策略¶

GAN损失：非饱和GAN loss + R1正则化，包含图像判别器 \(D_\zeta^I\) 和特征判别器 \(D_\zeta^F\)
特征判别器输入为低分辨率RGB和语义特征图，停止梯度从 \(D_\zeta^F\) 回传到RGB分支
前景-背景解耦：前景用3D NeRF生成，背景用2D StyleGAN2生成，共享latent code
模板更新策略：前3k迭代每16步更新一次模板，之后每epoch更新一次

实验关键数据¶

主实验¶

在4个数据集上与EG3D、3DGP、PoF3D对比（ShapeNet Cars, CompCars, SDIP Elephant, LSUN Plane）：

数据集	指标	TeFF (本文)	EG3D	3DGP	PoF3D
ShapeNet Cars	FID_gt↓	5.95	7.25	139.48	12.72
ShapeNet Cars	Depth_gt↓	0.53	0.61	4.84	0.65
CompCars	FID_360↓	27.71	7.06	187.20	44.52
CompCars	Depth_360↓	0.31	0.95	4.02	10.31
SDIP Elephant	FID_360↓	5.51	6.03	196.04	36.32
SDIP Elephant	Depth_360↓	0.60	1.10	3.29	3.14
LSUN Plane	Depth_360↓	0.78	1.19	3.84	1.37

位姿分布估计（ShapeNet Cars KL散度）：

方法	θ KL↓	ϕ KL↓
3DGP	40.4571	39.3625
PoF3D	4.4829	0.5495
TeFF	0.0555	0.0696

消融实验¶

配置	θ KL↓	ϕ KL↓	说明
TeRF_RGB	0.0663	0.1422	用RGB模板做位姿估计
TeRF_Gray	0.0656	0.1490	灰度RGB模板
TeFF (Ours)	0.0555	0.0696	语义特征模板，最优

自由度	Depth_360↓	FID_360↓	FID_est↓	说明
2 DoF (θ,ϕ)	4.98	39.66	11.09	几何错误
4 DoF (θ,ϕ,γ,r)	0.31	27.31	20.60	完整几何

关键发现¶

3DGP和PoF3D在估计的位姿分布下FID很低，但在360°均匀分布下FID暴增（因位姿分布坍缩）
TeFF的FID_360和FID_est基本一致，说明模型学到了完整的3D物体表示
语义特征比RGB特征更适合跨实例位姿匹配，因为前者对外观变化具有不变性
4自由度相机模型（加入scale+面内旋转）对处理真实数据中的尺度变化至关重要

亮点与洞察¶

核心创新：利用DINO语义特征的跨实例对齐性构建3D模板，将位姿估计从GAN训练中解耦——这是一个优雅且有效的解决方案
相位相关的巧妙应用：将传统图像配准技术引入3D-aware GAN的位姿估计，避免了高维网格搜索的计算爆炸
"均值=模板"的洞察：生成模型的均值噪声自然产生类别级模板，无需额外标注或聚类

局限与展望¶

无法处理透视畸变显著的图像，模型会通过扭曲几何来拟合透视效果
2D-3D匹配使用MSE，会受到几何形状差异的干扰
单模板设计限制了其仅能处理单一类别，多类别场景需要探索多模板方案
不建模物体的关节运动，可能导致不同视角生成不同的关节状态

评分¶

新颖性: ⭐⭐⭐⭐ — 模板特征场+在线位姿估计的框架设计巧妙，相位相关的引入非常elegant
实验充分度: ⭐⭐⭐⭐ — 4个数据集，多种metrics，消融完整
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，图示直观
价值: ⭐⭐⭐⭐ — 解决了3D-aware GAN的一个关键限制，实用意义明确