SemanticHuman-HD: High-Resolution Semantic Disentangled 3D Human Generation¶

会议: ECCV 2024
arXiv: 2403.10166
代码: 无
领域: 3D视觉
关键词: 3D人体生成, 语义解耦, 神经辐射场, 超分辨率, GAN

一句话总结¶

提出SemanticHuman-HD，首个实现语义解耦的3D人体图像合成方法，通过K个独立局部生成器和3D感知超分模块，实现1024²分辨率的语义可控人体生成。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：现有3D人体生成方法面临两大挑战：(1) 无法实现语义解耦生成，即不能独立控制身体、上衣、下装等不同语义部分；(2) 受限于NeRF的高计算成本，最高只能合成512²分辨率的图像。CNeRF等方法虽然尝试用K个局部生成器，但几何层面的解耦并不完全；AttriHuman-3D使用单一生成器导致不同语义部分仍然耦合。

方法详解¶

整体框架¶

SemanticHuman-HD采用两阶段训练：第一阶段合成256²分辨率的图像、深度图、语义掩码和法线图；第二阶段利用3D感知超分模块将分辨率提升至1024²。

关键设计¶

Semantic Mapper: 将随机噪声z映射为K=6个语义潜码（对应身体、上衣、外套、下装、鞋子、配饰），训练时强制各潜码相等以保证一致性，推理时可独立修改实现语义编辑。

K个独立局部生成器: 每个生成器独立生成一个tri-plane表示，关键区别在于先将局部SDF转换为局部密度再求和（而非先求和全局SDF再转密度），使得几何和纹理均可解耦。

3D感知超分模块: 利用第一阶段生成的深度图和语义掩码引导采样，将体渲染采样点从432（72×6）极大减少至11个，包含深度引导采样（聚合邻域像素深度）和语义引导采样（只渲染权重最高的语义部分）。

损失函数¶

阶段1: \(\mathcal{L}_1 = \mathcal{L}_{256} + \mathcal{L}_{AG3D}\)，包含图像、语义、法线和面部判别器
阶段2: \(\mathcal{L}_2 = \mathcal{L}_{1024} + \mathcal{L}_{upsample} + \mathcal{L}_{AG3D}\)，冻结生成器，新增上采样一致性损失

实验关键数据¶

主实验¶

在DeepFashion数据集上的定量比较（50K合成图像）：

方法	分辨率	FID↓	1000×KID↓	局部编辑	语义解耦	3D服装生成
AG3D	512*	11.33	5.75	✗	✗	✗
EVA3D	512	15.89	9.25	✗	✗	✗
GSM	512	15.78	-	✔	✗	✗
AttriHuman-3D	512*	16.85	-	✔	✗	✗
Ours	512	10.04	5.02	✔	✔	✔
Ours	1024	8.70	4.04	✔	✔	✔

消融实验¶

方法	分辨率	FID↓	1000×KID↓
w/o SR (无超分)	256	13.47	9.13
w/o DA (无深度聚合)	1024	9.38	4.56
w/o UL (无上采样损失)	1024	13.52	8.18
完整模型	1024	8.70	4.04

计算效率对比：本方法在512分辨率仅需10G显存，远低于EVA3D(34G)和AG3D(21G)。

关键发现¶

1024²分辨率比512²进一步降低FID（8.70 vs 10.04），说明超分模块确实提升了质量
深度聚合策略有效解决了边缘深度不连续问题
上采样损失对保持低分辨率与高分辨率一致性至关重要

亮点与洞察¶

完全独立的语义生成是实现几何+纹理双重解耦的关键，与之前方法用单生成器+共享特征的策略截然不同
巧妙利用深度和语义引导将采样点从432降至11，使1024²分辨率生成成为可能
解耦表示开启了3D服装生成、语义虚拟试穿、跨域合成等新应用

局限与展望¶

数据集约束：罕见姿态和视角效果受限
2D监督下实现精确3D几何仍然困难
手部生成质量有待提高

评分¶

新颖性: ⭐⭐⭐⭐
实用性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐