跳转至

Learning 3D-Aware GANs from Unposed Images with Template Feature Field

会议: ECCV 2024
arXiv: 2404.05705
代码:
领域: 3D视觉
关键词: 3D-aware GAN, 无姿态图像, 模板特征场, 位姿估计, NeRF

一句话总结

提出模板特征场(TeFF),通过联合学习生成辐射场和语义特征场,从无姿态标注的野外图像中自动提取3D模板并在线估计相机位姿,从而实现完整3D几何的生成对抗学习。

研究背景与动机

3D-aware GAN近年来取得了显著进展,核心思路是将生成器提升到3D空间(如NeRF),通过体渲染生成2D图像。然而,现有方法(如EG3D)通常假设训练图像的相机位姿分布已知,这在实际应用中是一个很强的限制——为真实图像估计精确相机位姿需要特定的3D先验知识,这对大多数野外物体类别几乎不可行。

为了去除已知位姿的假设,一些方法(CAMPARI、PoF3D、3DGP)尝试用生成器联合学习相机位姿分布和3D内容。但这些方法在多峰位姿分布(如360°可见的物体)上表现不佳,核心原因在于:生成的相机位姿和物体朝向在2D图像空间中是纠缠的。例如,模型可能通过让物体朝不同方向旋转(而非让相机移动)来匹配目标分布,导致生成的3D几何不完整——某些视角的几何从未被观察到。

本文的核心洞察是:将位姿估计从GAN训练中解耦。具体思路是利用自监督语义特征(如DINO特征)的跨实例语义对齐特性——同一类别不同实例的对应语义部位(如汽车的车轮)在特征空间中具有一致性。作者提出学习一个3D语义模板特征场,以此作为规范物体空间,将真实图像的位姿估计转化为2D-3D匹配问题。

方法详解

整体框架

TeFF在EG3D的基础上进行了关键扩展:生成器不仅生成辐射场(颜色+密度),还生成语义特征场(特征+共享密度)。通过体渲染得到2D RGB图像和2D特征图。利用生成器的均值噪声输入,自动获得类别级3D模板特征场,然后通过2D-3D匹配为每张真实图像在线估计相机位姿。

关键设计

  1. 生成辐射与特征场:

    • 生成器 \(G_\psi\) 将随机噪声 \(\mathbf{z}\) 映射为辐射场和特征场:\(G_\psi: \mathbb{R}^3 \times \mathbb{R}^M \to \mathbb{R}^3 \times \mathbb{R}^F \times \mathbb{R}^+\),即每个3D点 \(\mathbf{x}\) 输出颜色 \(\mathbf{c}\)、语义特征 \(\mathbf{f}\) 和密度 \(\sigma\)
    • 实践中通过两组tri-plane实现,一组用于颜色和密度,一组用于特征
    • 体渲染公式:\(\mathbf{c}_r = \sum_{i=1}^N T_i \alpha_i \mathbf{c}_i\)\(\mathbf{f}_r = \sum_{i=1}^N T_i \alpha_i \mathbf{f}_i\),颜色和特征共享密度
    • 设计动机:共享密度确保语义特征场与辐射场几何一致,而语义特征的跨实例对齐性使位姿估计成为可能
  2. 模板特征场(Template Feature Field):

    • 通过对生成器做EMA得到 \(\overline{G}_\psi\),输入均值噪声 \(\mathbf{z}_0\) 即可获得类别级模板特征场
    • 模板自动利用了生成模型发现的数据集均值形状
    • 使用DINO作为2D语义特征提取器,PCA降维到3个主成分
    • 设计动机:均值噪声天然对应类别的"平均外观",避免了单一实例的特征偏差;DINO特征在不同实例间语义对齐,使2D-3D匹配具备可行性
  3. 在线相机位姿估计:

    • 相机模型参数化为 \(\boldsymbol{\xi} = (\theta, \phi, \gamma, r)\),即方位角、仰角、面内旋转和球面半径
    • 方位角-仰角离散化:将 \(\theta\)\(\phi\) 分别离散为 \(N_\theta\)\(N_\phi\) 个值(如36×18),从模板渲染出一组2D特征图 \(\{\overline{\mathbf{F}}_k\}\)
    • 相位相关估计scale和面内旋转:利用频域方法高效估计 \(r\)\(\gamma\),避免暴力搜索4维空间
    • 位姿采样:计算每个变换后模板 \(\tilde{\mathbf{F}}_k\) 与真实特征 \(\mathbf{F}\) 的MSE,通过softmax温度 \(\tau\) 构建位姿概率分布:\(p(k) = \text{softmax}(-e_k \cdot \tau)\)
    • 训练早期温度低(探索更多位姿),后期温度升高(锁定最佳位姿)
    • 设计动机:相比建立2D-3D对应点(易混淆左右腿等),全局网格搜索+相位相关更鲁棒高效

损失函数 / 训练策略

  • GAN损失:非饱和GAN loss + R1正则化,包含图像判别器 \(D_\zeta^I\) 和特征判别器 \(D_\zeta^F\)
  • 特征判别器输入为低分辨率RGB和语义特征图,停止梯度从 \(D_\zeta^F\) 回传到RGB分支
  • 前景-背景解耦:前景用3D NeRF生成,背景用2D StyleGAN2生成,共享latent code
  • 模板更新策略:前3k迭代每16步更新一次模板,之后每epoch更新一次

实验关键数据

主实验

在4个数据集上与EG3D、3DGP、PoF3D对比(ShapeNet Cars, CompCars, SDIP Elephant, LSUN Plane):

数据集 指标 TeFF (本文) EG3D 3DGP PoF3D
ShapeNet Cars FID_gt↓ 5.95 7.25 139.48 12.72
ShapeNet Cars Depth_gt↓ 0.53 0.61 4.84 0.65
CompCars FID_360↓ 27.71 7.06 187.20 44.52
CompCars Depth_360↓ 0.31 0.95 4.02 10.31
SDIP Elephant FID_360↓ 5.51 6.03 196.04 36.32
SDIP Elephant Depth_360↓ 0.60 1.10 3.29 3.14
LSUN Plane Depth_360↓ 0.78 1.19 3.84 1.37

位姿分布估计(ShapeNet Cars KL散度):

方法 θ KL↓ ϕ KL↓
3DGP 40.4571 39.3625
PoF3D 4.4829 0.5495
TeFF 0.0555 0.0696

消融实验

配置 θ KL↓ ϕ KL↓ 说明
TeRF_RGB 0.0663 0.1422 用RGB模板做位姿估计
TeRF_Gray 0.0656 0.1490 灰度RGB模板
TeFF (Ours) 0.0555 0.0696 语义特征模板,最优
自由度 Depth_360↓ FID_360↓ FID_est↓ 说明
2 DoF (θ,ϕ) 4.98 39.66 11.09 几何错误
4 DoF (θ,ϕ,γ,r) 0.31 27.31 20.60 完整几何

关键发现

  • 3DGP和PoF3D在估计的位姿分布下FID很低,但在360°均匀分布下FID暴增(因位姿分布坍缩)
  • TeFF的FID_360和FID_est基本一致,说明模型学到了完整的3D物体表示
  • 语义特征比RGB特征更适合跨实例位姿匹配,因为前者对外观变化具有不变性
  • 4自由度相机模型(加入scale+面内旋转)对处理真实数据中的尺度变化至关重要

亮点与洞察

  • 核心创新:利用DINO语义特征的跨实例对齐性构建3D模板,将位姿估计从GAN训练中解耦——这是一个优雅且有效的解决方案
  • 相位相关的巧妙应用:将传统图像配准技术引入3D-aware GAN的位姿估计,避免了高维网格搜索的计算爆炸
  • "均值=模板"的洞察:生成模型的均值噪声自然产生类别级模板,无需额外标注或聚类

局限与展望

  • 无法处理透视畸变显著的图像,模型会通过扭曲几何来拟合透视效果
  • 2D-3D匹配使用MSE,会受到几何形状差异的干扰
  • 单模板设计限制了其仅能处理单一类别,多类别场景需要探索多模板方案
  • 不建模物体的关节运动,可能导致不同视角生成不同的关节状态

相关工作与启发

  • EG3D (Chan et al., 2022): tri-plane表示的3D-aware GAN,本文的基础架构
  • PoF3D (2023): 无位姿先验的pose-free生成器,但位姿分布学习容易坍缩
  • 3DGP (2023): 6DoF相机模型的3D-aware GAN,同样受限于联合学习位姿分布
  • DINO特征在3D中的应用:之前主要用于场景分解和编辑,本文首次用于跨实例位姿估计

评分

  • 新颖性: ⭐⭐⭐⭐ — 模板特征场+在线位姿估计的框架设计巧妙,相位相关的引入非常elegant
  • 实验充分度: ⭐⭐⭐⭐ — 4个数据集,多种metrics,消融完整
  • 写作质量: ⭐⭐⭐⭐ — 逻辑清晰,图示直观
  • 价值: ⭐⭐⭐⭐ — 解决了3D-aware GAN的一个关键限制,实用意义明确

相关论文