Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation¶

日期: 2026-03-04
arXiv: 2603.04307
代码: 即将开源（已承诺发布数据集、代码、字幕）
领域: 图像生成
关键词: 3D avatar, dual diffusion, texture generation, UV map, multi-modal

一句话总结¶

PromptAvatar 构建 10 万对四模态配对数据集（文本/图像/UV纹理/3D几何），训练纹理扩散模型 + 几何扩散模型，10 秒内从文本或图像生成高保真 2K 纹理的 3D 头像，速度比 DreamFusion 快 240 倍。

领域现状：3D 头像生成主要有两条路线——文本驱动（SDS 优化，如 DreamFusion/DreamFace）和图像驱动（直接回归/优化，如 FFHQ-UV/FlameTex），各有优劣。
现有痛点：文本驱动方法依赖 SDS/CLIP 迭代优化，推理极慢（DreamFusion 需 40 分钟），且细粒度语义控制差。图像驱动方法受限于高质量 3D 面部扫描数据的稀缺性。
核心矛盾：缺乏大规模多模态配对数据集（文本 + 野生图像 + 光学归一化 UV 纹理 + 3D 几何），无法用直接生成方式替代慢速迭代优化。
切入角度：自建数据管线，从 FFHQ 出发用去光照 + UV 展开 + 纹理校正 + LLM 字幕生成，构建 10 万级配对数据。
核心 idea 一句话：用大规模配对数据训练双扩散模型（纹理 + 几何），把 3D 头像生成从"分钟级迭代优化"变成"秒级直接生成"。

输入：文本描述和/或人脸图像。输出：2K 分辨率归一化 UV 纹理 + 532 维 identity 系数（可渲染为 3D 网格）。包含两个独立扩散模型：TDM（纹理）和 GDM（几何）。

数据集构建管线（10 万对四模态数据）：
- 反光/重光：NeRFFaceLighting 生成去光照正面 + 侧面视图，随机球谐系数采样
- 纹理展开：Deep3D 生成 UV 纹理，面部解析掩码 + 线性混合 + 色彩校正补全
- 几何：Deep3D 提取 532 维 identity 系数
- 文本：Qwen2.5-VL-32B 生成结构化描述（基础 + 纹理 + 几何，平均 200 tokens）
- 双阶段过滤：MLP 美学分类器 + CLIP 相似度阈值，500K → 100K 样本
- 设计动机：解决"无大规模配对数据"的根本瓶颈，使直接生成成为可能
纹理扩散模型（TDM，基于 SD-2.1）：
- 微调 VAE 适应 UV 纹理分布（关键——SD 原生 VAE 在 UV 贴图上过度平滑）
- 多条件指导：图像 → 展开不完整 UV 与噪声 latent 拼接（channel-wise）；文本 → CLIP 编码后交叉注意力
- 训练：\(L_\text{tex} = \mathbb{E}\|\epsilon - \epsilon_\text{tex}(z_t, I_p, y_p, t)\|^2\)
- 支持随机条件丢弃（图像/文本/两者），推理时灵活选择输入模态
几何扩散模型（GDM，自定义 1D UNet）：
- ID-UNet：3 个下采样块 + 中间块（6 个残差卷积 + 6 个交叉注意力）+ 上采样块
- 输入：文本几何描述；输出：532 维 identity 系数
- 训练：\(L_\text{geo} = \mathbb{E}\|\epsilon - \epsilon_\text{geo}(h_t, y_p, t)\|^2\)
- 设计动机：几何信息维度远低于纹理（532-d vs 512×512），用 1D UNet 更轻量

TDM：8×A800 GPU，7 天，AdamW lr=1e-4。GDM：单 GPU，2 天。VAE 微调：2 天，Adam lr=4.5e-6。总推理：<10 秒。

方法	FFHQ 相似度↑	CelebA-Mask 相似度↑	推理时间
FFHQ-UV	0.354	0.324	80s
FlameTex	0.159	0.114	72s
PromptAvatar	0.370	0.334	6s

速度优势碾压：比 DreamFusion 快 240 倍，且 CLIP 分数更高——证明大规模配对数据 + 直接生成优于迭代优化。
VAE 微调至关重要：冻结 SD 原生 VAE 丢失眼角皱纹等高频细节；微调后显著恢复。
不完整 UV 路径 > 嵌入路径：直接用展开的不完整 UV 作为条件（0.370）比 ArcFace 嵌入 + 交叉注意力（0.284）效果好，因后者丢失细节。