跳转至

4Diff: 3D-Aware Diffusion Model for Third-to-First Viewpoint Translation

会议: ECCV 2024
arXiv: 无
代码: https://klauscc.github.io/4diff
领域: 3D视觉
关键词: 视角转换, 扩散模型, 第三人称转第一人称, 3D几何先验, 跨视角图像生成

一句话总结

本文提出 4Diff,一个结合3D几何先验的 transformer-based 扩散模型,通过自中心点云光栅化和3D感知旋转交叉注意力两个机制,将第三人称(外视角)图像转换为第一人称(自中心视角)图像,在 Ego-Exo4D 数据集上达到 SOTA 并展现出对新环境的强泛化能力。

研究背景与动机

领域现状:视角转换(Viewpoint Translation)是计算机视觉中的一个重要任务,尤其是从第三人称(exocentric, exo)视角转换到第一人称(egocentric, ego)视角。这在增强现实、机器人模仿学习、第一人称视频生成等领域有广泛应用。现有方法通常基于图像到图像的条件生成,使用 GAN 或简单的条件扩散模型来完成转换。

现有痛点:exo-to-ego 转换涉及极大的视角变化——从观察者的外部视角到被观察者的第一人称视角,二者之间存在巨大的几何差异。传统的2D条件生成方法缺乏对3D几何的理解,无法准确处理这种空间变换。它们往往生成模糊、不一致的图像,尤其是在涉及大幅视角变化和复杂空间布局时。

核心矛盾:exo-to-ego 转换本质上是一个3D问题——需要理解场景的3D结构才能推断出从另一个位置和方向看到的景象。但现有方法主要在2D图像空间操作,缺乏显式的3D几何推理能力。

本文目标 (1) 如何将3D几何先验有效融入扩散模型以增强对空间变换的建模?(2) 如何在保持生成图像真实感的同时,确保与源视角的几何一致性?

切入角度:作者利用了 exo 视角图像的深度估计和已知的相机参数,可以将 exo 图像"提升"为3D点云,然后从 ego 相机的角度重新投影,从而提供一种显式的3D几何引导。这种点云光栅化的结果虽然不完美(有遮挡和空洞),但可以作为扩散模型的强条件信号。

核心 idea:将 exo 图像转换为 ego 视角的点云光栅化布局作为扩散模型的条件输入,并通过3D感知旋转交叉注意力进一步在去噪过程中融入3D空间信息。

方法详解

整体框架

4Diff 的pipeline:输入一张第三人称(exo)视角图像和对应的相机参数(包括 exo 和 ego 相机的内外参数),输出为生成的第一人称(ego)视角图像。流程分为两个主要部分:(1) 几何前处理——通过深度估计将 exo 图像提升为3D点云,然后从 ego 相机角度光栅化得到 ego 布局图;(2) 条件扩散生成——以 ego 布局图和 exo 图像特征为条件,通过 transformer-based 扩散模型在 ego 视角下生成高质量图像。

关键设计

  1. Egocentric Point Cloud Rasterization(自中心点云光栅化):

    • 功能:将 exo 视角图像转换为 ego 视角的粗略布局图,提供显式的3D几何引导
    • 核心思路:首先使用预训练的深度估计模型(如 DPT 或 MiDaS)从 exo 图像估计逐像素深度。利用 exo 相机的内外参数,将每个像素反投影到3D空间形成带颜色的点云。然后用 ego 相机的内外参数将3D点云投影到 ego 图像平面上,通过光栅化得到一张 ego 视角的布局图像。这张布局图会存在空洞(因为被遮挡的区域在 exo 视角不可见)和不精确(因为深度估计有误差),但它提供了 ego 视角下场景的粗略空间布局和内容分布。
    • 设计动机:纯2D的条件生成缺乏几何引导,模型需要"凭空想象"ego 视角的布局。通过点云光栅化提供一个虽不完美但有意义的初始布局,大大降低了生成任务的难度,让扩散模型只需在此基础上填补空洞和修正细节。
  2. 3D-Aware Rotary Cross-Attention(3D感知旋转交叉注意力):

    • 功能:在扩散去噪过程中融入3D空间信息和 exo 视角的语义特征
    • 核心思路:在 diffusion transformer 的每个 denoiser block 中,设计一种特殊的交叉注意力机制,其中 query 来自 ego 视角的去噪特征,key/value 来自 exo 图像的编码特征。关键创新在于使用3D感知的旋转位置编码(Rotary Position Embedding, RoPE)来编码空间关系:对于 ego 侧的每个位置和 exo 侧的每个位置,基于它们在3D空间中的相对方位关系计算旋转因子,使注意力机制"知道"两个位置在3D空间中的相对关系。这种编码方式使注意力能够自然地聚焦于几何上对应的区域。
    • 设计动机:简单的交叉注意力不具备3D空间感知能力——它只知道两个 token 在序列中的相对位置,不知道它们在3D空间中的关系。通过3D感知的旋转位置编码,模型可以利用相机几何来建立 exo 和 ego 位置之间的空间对应关系,使交叉注意力更准确地捕捉跨视角的语义对应。
  3. 基于 DiT 的扩散骨干网络(Diffusion Image Transformer):

    • 功能:作为核心生成模型,在 ego 布局条件下生成高质量的 ego 视角图像
    • 核心思路:采用 DiT(Diffusion Image Transformer)作为骨干网络,将 ego 点云光栅化布局图经过编码后作为条件嵌入(类似于 ControlNet 的条件注入方式)输入到 transformer 中。去噪过程在 latent space 中进行(基于预训练的 VAE 编码器-解码器)。每个 transformer block 包含自注意力、3D感知旋转交叉注意力和前馈网络。时间步嵌入通过 adaptive layer norm 注入到各层中。
    • 设计动机:DiT 架构相比 U-Net 具有更好的全局建模能力和可扩展性。transformer 的全局注意力机制天然适合处理需要长距离依赖的视角转换任务,同时也便于集成3D感知旋转交叉注意力模块。

损失函数 / 训练策略

训练采用标准的扩散模型训练方式:给定 ego 视角的 ground truth 图像 \(x_0\),在其上添加高斯噪声得到 \(x_t\),训练模型预测噪声 \(\epsilon\),使用简单的 MSE 损失 \(\mathcal{L} = \| \epsilon - \epsilon_\theta(x_t, t, c) \|^2\),其中 \(c\) 为条件信号(包括 ego 布局图和 exo 图像特征)。推理时使用 DDIM 或 DPM-Solver 采样器加速生成。训练在 Ego-Exo4D 数据集上进行,使用 AdamW 优化器。

实验关键数据

主实验

在 Ego-Exo4D 多视图数据集上进行评估,使用 FID、LPIPS、SSIM 和 PSNR 作为评估指标。

数据集 指标 4Diff Pix2Pix InstructPix2Pix 之前SOTA 提升
Ego-Exo4D FID ↓ 最优 较差 中等 次优 显著
Ego-Exo4D LPIPS ↓ 最优 较差 中等 次优 明显
Ego-Exo4D SSIM ↑ 最优 较低 中等 次优 稳定
Ego-Exo4D(新环境) FID ↓ 仍优 退化明显 退化 退化 泛化强

4Diff 在所有指标上达到 SOTA,且在未见过的新环境中展现出比其他方法更鲁棒的泛化能力。

消融实验

配置 FID ↓ 说明
仅扩散模型(无几何先验) 较高 缺乏3D引导,生成不准确
+Ego Point Cloud Rasterization 明显降低 点云布局提供强几何条件
+3D-Aware Rotary Cross-Attention 进一步降低 3D感知注意力增强空间一致性
用普通交叉注意力替换3D-aware版本 略有上升 3D位置编码有实际贡献
不同深度估计模型 影响不大 方法对深度精度有一定鲁棒性

关键发现

  • 点云光栅化是性能提升的最大因素,提供了难以替代的3D几何引导
  • 3D感知旋转交叉注意力在复杂场景(如多人、多物体)中效果尤为显著
  • 4Diff 对未见过的新环境泛化能力强,说明3D几何先验帮助模型学到了与场景无关的视角转换规律
  • 即使深度估计不完全准确,点云光栅化仍然提供了有用的空间布局线索

亮点与洞察

  • 几何+生成的巧妙结合:用确定性的3D几何变换(点云光栅化)作为随机性生成过程(扩散模型)的条件,结合了两者的优势——几何准确性和生成真实感
  • RoPE 的3D扩展:将原本用于1D/2D序列位置编码的 RoPE 推广到3D空间关系编码,是一种优雅且有效的技术贡献
  • 强泛化能力:作为视角转换方法,在新环境的泛化能力尤为关键,4Diff 的3D几何先验帮助实现了这一点
  • 来自FAIR的研究:团队包括 Kristen Grauman 和 Lorenzo Torresani 等知名学者,研究定位在 Ego-Exo4D 这一重要的大规模数据集上

局限与展望

  • 依赖单目深度估计的质量,虽然方法对此有一定鲁棒性,但严重错误的深度估计会导致生成质量降低
  • 点云光栅化的结果存在不可避免的空洞,需要扩散模型"幻想"这些区域的内容,可能导致不一致
  • 目前仅处理单帧图像的转换,未利用视频的时序信息来提升一致性
  • 生成速度受扩散模型采样步数限制,实时应用仍有挑战
  • Ego-Exo4D 数据集虽然多样,但在极端光照条件和户外场景中的表现尚待验证

相关工作与启发

  • vs Pix2Pix/InstructPix2Pix: 这些通用的图像到图像转换方法缺乏3D几何理解,无法有效处理大幅视角变化。4Diff 通过显式的3D点云变换弥补了这一不足
  • vs Novel View Synthesis (NVS): NVS 方法如 NeRF 需要密集的多视图输入,而 4Diff 只需单张 exo 图像。NVS 注重几何精确性,4Diff 的扩散模型更擅长填补不可见区域
  • vs Ego-Exo Transfer 方法: 之前的第一人称-第三人称转换工作多关注动作识别层面的特征对齐,4Diff 直接在像素层面完成视角转换

评分

  • 新颖性: ⭐⭐⭐⭐ 3D点云光栅化+3D感知旋转交叉注意力的组合是有效的创新,3D RoPE 扩展有技术贡献
  • 实验充分度: ⭐⭐⭐⭐ 在大规模 Ego-Exo4D 数据集上有详尽的对比、消融和泛化实验
  • 写作质量: ⭐⭐⭐⭐ 来自顶级实验室,问题定义清晰,方法描述条理分明
  • 价值: ⭐⭐⭐⭐ 对第一人称视觉和视角转换领域有重要推动,3D感知扩散的范式有推广价值

相关论文