WordRobe: Text-Guided Generation of Textured 3D Garments¶

会议: ECCV 2024
arXiv: 2403.17541
代码: 有（计划公开）
领域: LLM/NLP
关键词: text-to-3D, 3D garment generation, texture synthesis, CLIP, ControlNet

一句话总结¶

提出 WordRobe 框架，通过学习 3D 服装潜在空间并与 CLIP 嵌入对齐，实现文本驱动的带纹理 3D 服装网格生成，并利用 ControlNet 的单步前向推理实现高效视角一致的纹理合成。

3D 服装生成在虚拟试穿、游戏角色、AR/VR 等领域有广泛应用
现有方法的局限：
- 参数化方法（基于 SMPL）仅限于紧身衣物
- 非参数化方法生成的服装带姿态且纹理质量低
- 通用 text-to-3D 方法的网格质量不够用于标准图形管线
- DrapeNet 学习了形状潜在空间但不支持纹理和文本控制
核心挑战：如何在文本控制下生成高质量、无姿态（canonical pose）的 3D 服装网格和逼真纹理

WordRobe 包含三个核心组件： 1. 3D 服装潜在空间（Ω）：将无姿态 3D 服装编码为潜在码 2. 映射网络（MLP_map）：从 CLIP 嵌入预测服装潜在码 3. 纹理合成：利用 ControlNet 生成视角一致的纹理

1. Coarse-to-Fine 服装潜在空间学习

编码器：DGCNN 将 3D 服装表面点聚合为 32 维潜在码 ϕ
表示：使用无符号距离函数（UDF）表示开放服装表面
两阶段解码器：
- 粗解码器 D_coarse：学习正则化的潜在空间和平滑 UDF
- 细解码器 D_fine：预测粗解码器输出的残差变化，捕捉褶皱等细节
- σ_fine = D_coarse(ϕ) + D_fine(ϕ)
解纠缠损失 L_latent：约束潜在向量各维度的批次协方差矩阵趋近单位矩阵，使各维度独立编码不同形状特征

2. CLIP 引导的 3D 服装生成

3. 单步纹理合成

发现 ControlNet 的重要性质：多视角深度图合成在单张图像中时，生成的 RGB 图像保持视角间颜色和光照一致
方法：渲染服装正面和背面深度图并排合成 → 输入 ControlNet → 单步前向生成 1024×1024 视角合成 RGB 图像 → 投影到 UV 纹理贴图
使用正交投影减少切线区域信息损失

粗阶段：L_coarse = λ_dist · L_dist + λ_grad · L_grad + λ_latent · L_latent
- L_dist: BCE 距离损失，L_grad: L2 梯度损失
细阶段：L_fine = λ_dist · L_dist + λ_grad · L_grad（冻结编码器）
映射网络：L1 损失对齐 CLIP 嵌入与服装潜在码

CD 降低 40%，P2S 降低 42%，显著优于 DrapeNet。