SemanticHuman-HD: High-Resolution Semantic Disentangled 3D Human Generation¶
会议: ECCV 2024
arXiv: 2403.10166
代码: 无
领域: 3D视觉
关键词: 3D人体生成, 语义解耦, 神经辐射场, 超分辨率, GAN
一句话总结¶
提出SemanticHuman-HD,首个实现语义解耦的3D人体图像合成方法,通过K个独立局部生成器和3D感知超分模块,实现1024²分辨率的语义可控人体生成。
研究背景与动机¶
现有痛点¶
现有痛点:领域现状:现有3D人体生成方法面临两大挑战:(1) 无法实现语义解耦生成,即不能独立控制身体、上衣、下装等不同语义部分;(2) 受限于NeRF的高计算成本,最高只能合成512²分辨率的图像。CNeRF等方法虽然尝试用K个局部生成器,但几何层面的解耦并不完全;AttriHuman-3D使用单一生成器导致不同语义部分仍然耦合。
方法详解¶
整体框架¶
SemanticHuman-HD采用两阶段训练:第一阶段合成256²分辨率的图像、深度图、语义掩码和法线图;第二阶段利用3D感知超分模块将分辨率提升至1024²。
关键设计¶
Semantic Mapper: 将随机噪声z映射为K=6个语义潜码(对应身体、上衣、外套、下装、鞋子、配饰),训练时强制各潜码相等以保证一致性,推理时可独立修改实现语义编辑。
K个独立局部生成器: 每个生成器独立生成一个tri-plane表示,关键区别在于先将局部SDF转换为局部密度再求和(而非先求和全局SDF再转密度),使得几何和纹理均可解耦。
3D感知超分模块: 利用第一阶段生成的深度图和语义掩码引导采样,将体渲染采样点从432(72×6)极大减少至11个,包含深度引导采样(聚合邻域像素深度)和语义引导采样(只渲染权重最高的语义部分)。
损失函数¶
- 阶段1: \(\mathcal{L}_1 = \mathcal{L}_{256} + \mathcal{L}_{AG3D}\),包含图像、语义、法线和面部判别器
- 阶段2: \(\mathcal{L}_2 = \mathcal{L}_{1024} + \mathcal{L}_{upsample} + \mathcal{L}_{AG3D}\),冻结生成器,新增上采样一致性损失
实验关键数据¶
主实验¶
在DeepFashion数据集上的定量比较(50K合成图像):
| 方法 | 分辨率 | FID↓ | 1000×KID↓ | 局部编辑 | 语义解耦 | 3D服装生成 |
|---|---|---|---|---|---|---|
| AG3D | 512* | 11.33 | 5.75 | ✗ | ✗ | ✗ |
| EVA3D | 512 | 15.89 | 9.25 | ✗ | ✗ | ✗ |
| GSM | 512 | 15.78 | - | ✔ | ✗ | ✗ |
| AttriHuman-3D | 512* | 16.85 | - | ✔ | ✗ | ✗ |
| Ours | 512 | 10.04 | 5.02 | ✔ | ✔ | ✔ |
| Ours | 1024 | 8.70 | 4.04 | ✔ | ✔ | ✔ |
消融实验¶
| 方法 | 分辨率 | FID↓ | 1000×KID↓ |
|---|---|---|---|
| w/o SR (无超分) | 256 | 13.47 | 9.13 |
| w/o DA (无深度聚合) | 1024 | 9.38 | 4.56 |
| w/o UL (无上采样损失) | 1024 | 13.52 | 8.18 |
| 完整模型 | 1024 | 8.70 | 4.04 |
计算效率对比:本方法在512分辨率仅需10G显存,远低于EVA3D(34G)和AG3D(21G)。
关键发现¶
- 1024²分辨率比512²进一步降低FID(8.70 vs 10.04),说明超分模块确实提升了质量
- 深度聚合策略有效解决了边缘深度不连续问题
- 上采样损失对保持低分辨率与高分辨率一致性至关重要
亮点与洞察¶
- 完全独立的语义生成是实现几何+纹理双重解耦的关键,与之前方法用单生成器+共享特征的策略截然不同
- 巧妙利用深度和语义引导将采样点从432降至11,使1024²分辨率生成成为可能
- 解耦表示开启了3D服装生成、语义虚拟试穿、跨域合成等新应用
局限与展望¶
- 数据集约束:罕见姿态和视角效果受限
- 2D监督下实现精确3D几何仍然困难
- 手部生成质量有待提高
相关工作与启发¶
本文将EG3D的tri-plane表示扩展到组合式人体生成,思路与CNeRF类似但独立性更强。3D感知超分模块的设计可推广到其他NeRF生成模型。
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实用性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
相关论文¶
- [ECCV 2024] nuCraft: Crafting High Resolution 3D Semantic Occupancy for Unified 3D Scene Understanding
- [ECCV 2024] High-Resolution and Few-shot View Synthesis from Asymmetric Dual-Lens Inputs
- [ECCV 2024] DreamDissector: Learning Disentangled Text-to-3D Generation from 2D Diffusion Priors
- [ECCV 2024] LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
- [CVPR 2025] Disco4D: Disentangled 4D Human Generation and Animation from a Single Image