跳转至

TPA3D: Triplane Attention for Fast Text-to-3D Generation

会议: ECCV 2024
arXiv: 2312.02647
代码: 无
领域: 3D视觉

一句话总结

提出TPA3D,一个基于GAN的文本引导3D生成框架,通过三平面注意力(TPA)模块在句子级和词级特征上进行逐层细化,实现快速且细粒度的文本到3D纹理网格生成。

研究背景与动机

  • 现有文本到3D方法依赖2D扩散模型做SDS优化(DreamFusion/Magic3D),推理时间长达数十分钟到数小时
  • 基于视觉-语言模型的GAN方法(如TAPS3D)仅使用CLIP全局句子特征,无法捕获文本中的细粒度描述
  • 缺乏大规模文本-3D配对数据,需要在无人工标注条件下实现文本条件生成
  • 核心问题:现有GAN方法仅利用全局语义,不同细粒度文本描述生成的形状和纹理高度相似

方法详解

整体框架

TPA3D构建在GET3D之上,包含两个核心模块: 1. 句子级三平面生成器G:将CLIP句子特征拼接随机噪声,通过StyleGAN2式调制卷积生成句子级几何/纹理三平面 2. 三平面注意力块TPA:在每层对句子级三平面进行词级细化,生成包含3D空间信息和词级信息的三平面

关键设计

伪标题生成:用InstructBLIP为渲染图像生成详细伪标题,通过CLIP提取句子特征\(t_s\)和词特征\(t_w\)

TPA模块含三种注意力: - 平面内自注意力:各平面独立做自注意力,确保平面内一致性 - 跨平面注意力:融合三平面特征作为key/value,各平面内容特征作为query,建立三平面间的3D空间连通性 - 跨词注意力:自精炼特征为query、CLIP词特征为key/value,注入细粒度词级信息

纹理TPA的几何感知:纹理分支额外引入几何三平面(权重α=0.5),确保纹理与几何形状对应

文本引导判别器:句子特征拼接到相机位姿条件中,判别器同时判断真假与文本匹配性;额外添加不匹配损失\(\mathcal{L}_{mis}\)

损失函数

\[\mathcal{L} = \mathcal{L}(D_{rgb}, G) + \mathcal{L}(D_{mask}, G) + \mathcal{L}_{mis} + \mathcal{L}_{clip}\]
  • 对抗损失:RGB/mask两路判别器 + R1梯度惩罚
  • 错配损失:使用负样本(不匹配文本对)增强文本条件判别
  • CLIP损失:渲染图像与句子特征的余弦相似度,稳定训练

实验关键数据

主实验

方法 Car FID↓ Chair FID↓ Motorbike FID↓ Vehicle FID↓ Acc. FID↓
GET3D 11.50 22.75 49.98 98.15 145.66
TAPS3D 26.37 44.70 84.83 152.34 172.14
TPA3D 18.50 38.11 77.69 68.80 83.31
方法 Car R-Prec@5↑ Chair Motorbike Vehicle Acc.
TAPS3D 12.55 7.52 5.00 9.47 6.67
TPA3D 80.94 38.58 24.76 65.26 64.44

消融实验

方法 设备 输出类型 推理时间
DreamFusion TPUv4 Rendering 90 min
Magic3D A100×8 Rendering 40 min
TAPS3D V100-32G Mesh 1.03 sec
TPA3D V100-32G Rendering 0.09 sec
TPA3D V100-32G Mesh 2.87 sec

关键发现

  • R-Precision@5上TPA3D大幅领先TAPS3D(Car: 80.94 vs 12.55),验证词级细化有效性
  • 高多样性OmniObject3D上FID优于无条件GET3D(68.80 vs 98.15),文本引导有助于多类别生成
  • 推理速度与GAN方法相当(毫秒级渲染),比SDS方法快3-4个数量级
  • 固定种子修改文本可实现增量操控,几何纹理解耦良好

亮点与洞察

  • 首次在GAN框架中引入词级三平面注意力,兼顾生成速度与细粒度文本对齐
  • 与SDS方法对比在复杂多属性文本输入下表现更好,能准确分离颜色到不同部位
  • 平面内自注意力→跨平面注意力→跨词注意力的渐进设计逻辑清晰

局限性

  • 受限于ShapeNet/OmniObject3D的类别多样性,难以泛化到开放世界物体
  • 三平面分辨率限制了生成细节
  • 纹理质量仍不及SDS优化方法的极限效果

评分

  • 新颖性:⭐⭐⭐⭐ — 词级三平面注意力设计巧妙
  • 有效性:⭐⭐⭐⭐ — 文本对齐指标大幅提升
  • 实用性:⭐⭐⭐⭐⭐ — 毫秒级推理远快于扩散方法
  • 推荐度:⭐⭐⭐⭐

TPA3D: Triplane Attention for Fast Text-to-3D Generation

会议: ECCV 2024
arXiv: 2312.02647
代码: 无
领域: 3D视觉

一句话总结

提出TPA3D,一个基于GAN的文本引导3D生成框架,通过三平面注意力(TPA)模块对句子级和词级文本特征进行逐层细化,实现快速且细粒度的文本到3D纹理网格生成。

研究背景与动机

  • 现有文本到3D方法主要依赖2D扩散模型进行SDS优化(如DreamFusion、Magic3D),推理时间长达数十分钟甚至数小时
  • 基于视觉-语言模型的GAN方法(如TAPS3D)仅使用CLIP全局句子特征,无法捕获文本中的细粒度描述信息
  • 缺乏大规模文本-3D配对数据,需要在无监督设置下实现文本引导的3D生成
  • 核心问题:现有GAN方法仅利用全局语义特征,导致不同细粒度描述生成的形状和纹理高度相似

方法详解

整体框架

TPA3D构建在GET3D之上,包含两个核心模块: 1. 句子级三平面生成器G:将CLIP句子特征与随机噪声拼接,通过调制卷积生成句子级几何/纹理三平面 2. 三平面注意力块TPA:对句子级三平面进行词级细化,生成包含3D空间信息和词级信息的精细三平面

使用InstructBLIP为渲染图像自动生成伪标题,无需人工标注的文本-3D配对数据。

关键设计

TPA模块包含三种注意力机制: - 平面内自注意力:对每个平面特征独立做自注意力,保持各平面内部一致性 - 跨平面注意力:融合三平面特征作为key/value,各平面内容特征作为query,建立3D空间连通性 - 跨词注意力:以自精炼特征为query,CLIP词特征为key/value,注入细粒度词级信息

纹理TPA额外引入几何三平面(权重α=0.5)作为输入,确保纹理与几何对应。判别器使用句子特征+相机位姿作为条件,并引入错配目标函数增强对不匹配文本的敏感性。

损失函数

总损失 = RGB对抗损失 + Mask对抗损失 + 错配损失 + CLIP相似度损失

错配损失使用不匹配的句子特征构建负样本,增强判别器的区分能力。CLIP损失计算生成图像与文本的相似度,稳定训练过程。

实验关键数据

主实验

方法 Car(FID↓) Chair(FID↓) Motorbike(FID↓) Vehicle(FID↓) Acc.(FID↓)
GET3D 11.50 22.75 49.98 98.15 145.66
TAPS3D 26.37 44.70 84.83 152.34 172.14
TPA3D 18.50 38.11 77.69 68.80 83.31
方法 Car(R-Prec@5↑) Chair Motorbike Vehicle Acc.
TAPS3D 12.55 7.52 5.00 9.47 6.67
TPA3D 80.94 38.58 24.76 65.26 64.44

消融实验

方法 设备 输出类型 推理时间
DreamFusion TPUv4 Rendering 90 min
Magic3D A100 x8 Rendering 40 min
TAPS3D V100-32G Mesh 1.03 sec
TPA3D V100-32G Mesh 2.87 sec
TPA3D V100-32G Rendering 0.09 sec

关键发现

  • CLIP R-Precision@5指标上TPA3D大幅领先TAPS3D(Car: 80.94% vs 12.55%),词级细化极其有效
  • 在高多样性OmniObject3D数据集上FID优于无条件GET3D,文本引导有利于多类别生成
  • 推理速度与GAN方法相当(毫秒级渲染),比SDS方法快3-4个数量级
  • 固定随机种子仅修改文本可增量操控3D物体细节

亮点与洞察

  • 首次在GAN框架中引入词级三平面注意力,突破了全局特征的信息瓶颈
  • 通过InstructBLIP消除了对人工标注文本-3D数据的依赖
  • 对比SDS方法,在复杂多属性文本(如"红色轮毂+蓝色座椅")下能更准确分离颜色到不同部位

局限性

  • 受限于ShapeNet/OmniObject3D的类别多样性,扩展到开放世界场景具有挑战
  • 纹理细节相比真实3D扫描仍有差距
  • 三平面表示的分辨率对几何/纹理上限有约束

评分

  • 新颖性:⭐⭐⭐⭐
  • 有效性:⭐⭐⭐⭐
  • 实用性:⭐⭐⭐⭐⭐
  • 推荐度:⭐⭐⭐⭐

相关论文