TPA3D: Triplane Attention for Fast Text-to-3D Generation¶
会议: ECCV 2024
arXiv: 2312.02647
代码: 无
领域: 3D视觉
一句话总结¶
提出TPA3D,一个基于GAN的文本引导3D生成框架,通过三平面注意力(TPA)模块在句子级和词级特征上进行逐层细化,实现快速且细粒度的文本到3D纹理网格生成。
研究背景与动机¶
- 现有文本到3D方法依赖2D扩散模型做SDS优化(DreamFusion/Magic3D),推理时间长达数十分钟到数小时
- 基于视觉-语言模型的GAN方法(如TAPS3D)仅使用CLIP全局句子特征,无法捕获文本中的细粒度描述
- 缺乏大规模文本-3D配对数据,需要在无人工标注条件下实现文本条件生成
- 核心问题:现有GAN方法仅利用全局语义,不同细粒度文本描述生成的形状和纹理高度相似
方法详解¶
整体框架¶
TPA3D构建在GET3D之上,包含两个核心模块: 1. 句子级三平面生成器G:将CLIP句子特征拼接随机噪声,通过StyleGAN2式调制卷积生成句子级几何/纹理三平面 2. 三平面注意力块TPA:在每层对句子级三平面进行词级细化,生成包含3D空间信息和词级信息的三平面
关键设计¶
伪标题生成:用InstructBLIP为渲染图像生成详细伪标题,通过CLIP提取句子特征\(t_s\)和词特征\(t_w\)
TPA模块含三种注意力: - 平面内自注意力:各平面独立做自注意力,确保平面内一致性 - 跨平面注意力:融合三平面特征作为key/value,各平面内容特征作为query,建立三平面间的3D空间连通性 - 跨词注意力:自精炼特征为query、CLIP词特征为key/value,注入细粒度词级信息
纹理TPA的几何感知:纹理分支额外引入几何三平面(权重α=0.5),确保纹理与几何形状对应
文本引导判别器:句子特征拼接到相机位姿条件中,判别器同时判断真假与文本匹配性;额外添加不匹配损失\(\mathcal{L}_{mis}\)
损失函数¶
- 对抗损失:RGB/mask两路判别器 + R1梯度惩罚
- 错配损失:使用负样本(不匹配文本对)增强文本条件判别
- CLIP损失:渲染图像与句子特征的余弦相似度,稳定训练
实验关键数据¶
主实验¶
| 方法 | Car FID↓ | Chair FID↓ | Motorbike FID↓ | Vehicle FID↓ | Acc. FID↓ |
|---|---|---|---|---|---|
| GET3D | 11.50 | 22.75 | 49.98 | 98.15 | 145.66 |
| TAPS3D | 26.37 | 44.70 | 84.83 | 152.34 | 172.14 |
| TPA3D | 18.50 | 38.11 | 77.69 | 68.80 | 83.31 |
| 方法 | Car R-Prec@5↑ | Chair | Motorbike | Vehicle | Acc. |
|---|---|---|---|---|---|
| TAPS3D | 12.55 | 7.52 | 5.00 | 9.47 | 6.67 |
| TPA3D | 80.94 | 38.58 | 24.76 | 65.26 | 64.44 |
消融实验¶
| 方法 | 设备 | 输出类型 | 推理时间 |
|---|---|---|---|
| DreamFusion | TPUv4 | Rendering | 90 min |
| Magic3D | A100×8 | Rendering | 40 min |
| TAPS3D | V100-32G | Mesh | 1.03 sec |
| TPA3D | V100-32G | Rendering | 0.09 sec |
| TPA3D | V100-32G | Mesh | 2.87 sec |
关键发现¶
- R-Precision@5上TPA3D大幅领先TAPS3D(Car: 80.94 vs 12.55),验证词级细化有效性
- 高多样性OmniObject3D上FID优于无条件GET3D(68.80 vs 98.15),文本引导有助于多类别生成
- 推理速度与GAN方法相当(毫秒级渲染),比SDS方法快3-4个数量级
- 固定种子修改文本可实现增量操控,几何纹理解耦良好
亮点与洞察¶
- 首次在GAN框架中引入词级三平面注意力,兼顾生成速度与细粒度文本对齐
- 与SDS方法对比在复杂多属性文本输入下表现更好,能准确分离颜色到不同部位
- 平面内自注意力→跨平面注意力→跨词注意力的渐进设计逻辑清晰
局限性¶
- 受限于ShapeNet/OmniObject3D的类别多样性,难以泛化到开放世界物体
- 三平面分辨率限制了生成细节
- 纹理质量仍不及SDS优化方法的极限效果
评分¶
- 新颖性:⭐⭐⭐⭐ — 词级三平面注意力设计巧妙
- 有效性:⭐⭐⭐⭐ — 文本对齐指标大幅提升
- 实用性:⭐⭐⭐⭐⭐ — 毫秒级推理远快于扩散方法
- 推荐度:⭐⭐⭐⭐
TPA3D: Triplane Attention for Fast Text-to-3D Generation¶
会议: ECCV 2024
arXiv: 2312.02647
代码: 无
领域: 3D视觉
一句话总结¶
提出TPA3D,一个基于GAN的文本引导3D生成框架,通过三平面注意力(TPA)模块对句子级和词级文本特征进行逐层细化,实现快速且细粒度的文本到3D纹理网格生成。
研究背景与动机¶
- 现有文本到3D方法主要依赖2D扩散模型进行SDS优化(如DreamFusion、Magic3D),推理时间长达数十分钟甚至数小时
- 基于视觉-语言模型的GAN方法(如TAPS3D)仅使用CLIP全局句子特征,无法捕获文本中的细粒度描述信息
- 缺乏大规模文本-3D配对数据,需要在无监督设置下实现文本引导的3D生成
- 核心问题:现有GAN方法仅利用全局语义特征,导致不同细粒度描述生成的形状和纹理高度相似
方法详解¶
整体框架¶
TPA3D构建在GET3D之上,包含两个核心模块: 1. 句子级三平面生成器G:将CLIP句子特征与随机噪声拼接,通过调制卷积生成句子级几何/纹理三平面 2. 三平面注意力块TPA:对句子级三平面进行词级细化,生成包含3D空间信息和词级信息的精细三平面
使用InstructBLIP为渲染图像自动生成伪标题,无需人工标注的文本-3D配对数据。
关键设计¶
TPA模块包含三种注意力机制: - 平面内自注意力:对每个平面特征独立做自注意力,保持各平面内部一致性 - 跨平面注意力:融合三平面特征作为key/value,各平面内容特征作为query,建立3D空间连通性 - 跨词注意力:以自精炼特征为query,CLIP词特征为key/value,注入细粒度词级信息
纹理TPA额外引入几何三平面(权重α=0.5)作为输入,确保纹理与几何对应。判别器使用句子特征+相机位姿作为条件,并引入错配目标函数增强对不匹配文本的敏感性。
损失函数¶
总损失 = RGB对抗损失 + Mask对抗损失 + 错配损失 + CLIP相似度损失
错配损失使用不匹配的句子特征构建负样本,增强判别器的区分能力。CLIP损失计算生成图像与文本的相似度,稳定训练过程。
实验关键数据¶
主实验¶
| 方法 | Car(FID↓) | Chair(FID↓) | Motorbike(FID↓) | Vehicle(FID↓) | Acc.(FID↓) |
|---|---|---|---|---|---|
| GET3D | 11.50 | 22.75 | 49.98 | 98.15 | 145.66 |
| TAPS3D | 26.37 | 44.70 | 84.83 | 152.34 | 172.14 |
| TPA3D | 18.50 | 38.11 | 77.69 | 68.80 | 83.31 |
| 方法 | Car(R-Prec@5↑) | Chair | Motorbike | Vehicle | Acc. |
|---|---|---|---|---|---|
| TAPS3D | 12.55 | 7.52 | 5.00 | 9.47 | 6.67 |
| TPA3D | 80.94 | 38.58 | 24.76 | 65.26 | 64.44 |
消融实验¶
| 方法 | 设备 | 输出类型 | 推理时间 |
|---|---|---|---|
| DreamFusion | TPUv4 | Rendering | 90 min |
| Magic3D | A100 x8 | Rendering | 40 min |
| TAPS3D | V100-32G | Mesh | 1.03 sec |
| TPA3D | V100-32G | Mesh | 2.87 sec |
| TPA3D | V100-32G | Rendering | 0.09 sec |
关键发现¶
- CLIP R-Precision@5指标上TPA3D大幅领先TAPS3D(Car: 80.94% vs 12.55%),词级细化极其有效
- 在高多样性OmniObject3D数据集上FID优于无条件GET3D,文本引导有利于多类别生成
- 推理速度与GAN方法相当(毫秒级渲染),比SDS方法快3-4个数量级
- 固定随机种子仅修改文本可增量操控3D物体细节
亮点与洞察¶
- 首次在GAN框架中引入词级三平面注意力,突破了全局特征的信息瓶颈
- 通过InstructBLIP消除了对人工标注文本-3D数据的依赖
- 对比SDS方法,在复杂多属性文本(如"红色轮毂+蓝色座椅")下能更准确分离颜色到不同部位
局限性¶
- 受限于ShapeNet/OmniObject3D的类别多样性,扩展到开放世界场景具有挑战
- 纹理细节相比真实3D扫描仍有差距
- 三平面表示的分辨率对几何/纹理上限有约束
评分¶
- 新颖性:⭐⭐⭐⭐
- 有效性:⭐⭐⭐⭐
- 实用性:⭐⭐⭐⭐⭐
- 推荐度:⭐⭐⭐⭐
相关论文¶
- [ECCV 2024] UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation
- [ECCV 2024] Track Everything Everywhere Fast and Robustly
- [ECCV 2024] VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing
- [ECCV 2024] WaSt-3D: Wasserstein-2 Distance for Scene-to-Scene Stylization on 3D Gaussians
- [ECCV 2024] Vista3D: Unravel the 3D Darkside of a Single Image