跳转至

SemanticHuman-HD: High-Resolution Semantic Disentangled 3D Human Generation

会议: ECCV 2024
arXiv: 2403.10166
代码: 无
领域: 3D视觉
关键词: 3D人体生成, 语义解耦, 神经辐射场, 超分辨率, GAN

一句话总结

提出SemanticHuman-HD,首个实现语义解耦的3D人体图像合成方法,通过K个独立局部生成器和3D感知超分模块,实现1024²分辨率的语义可控人体生成。

研究背景与动机

现有痛点

现有痛点领域现状:现有3D人体生成方法面临两大挑战:(1) 无法实现语义解耦生成,即不能独立控制身体、上衣、下装等不同语义部分;(2) 受限于NeRF的高计算成本,最高只能合成512²分辨率的图像。CNeRF等方法虽然尝试用K个局部生成器,但几何层面的解耦并不完全;AttriHuman-3D使用单一生成器导致不同语义部分仍然耦合。

方法详解

整体框架

SemanticHuman-HD采用两阶段训练:第一阶段合成256²分辨率的图像、深度图、语义掩码和法线图;第二阶段利用3D感知超分模块将分辨率提升至1024²。

关键设计

Semantic Mapper: 将随机噪声z映射为K=6个语义潜码(对应身体、上衣、外套、下装、鞋子、配饰),训练时强制各潜码相等以保证一致性,推理时可独立修改实现语义编辑。

K个独立局部生成器: 每个生成器独立生成一个tri-plane表示,关键区别在于先将局部SDF转换为局部密度再求和(而非先求和全局SDF再转密度),使得几何和纹理均可解耦。

3D感知超分模块: 利用第一阶段生成的深度图和语义掩码引导采样,将体渲染采样点从432(72×6)极大减少至11个,包含深度引导采样(聚合邻域像素深度)和语义引导采样(只渲染权重最高的语义部分)。

损失函数

  • 阶段1: \(\mathcal{L}_1 = \mathcal{L}_{256} + \mathcal{L}_{AG3D}\),包含图像、语义、法线和面部判别器
  • 阶段2: \(\mathcal{L}_2 = \mathcal{L}_{1024} + \mathcal{L}_{upsample} + \mathcal{L}_{AG3D}\),冻结生成器,新增上采样一致性损失

实验关键数据

主实验

在DeepFashion数据集上的定量比较(50K合成图像):

方法 分辨率 FID↓ 1000×KID↓ 局部编辑 语义解耦 3D服装生成
AG3D 512* 11.33 5.75
EVA3D 512 15.89 9.25
GSM 512 15.78 -
AttriHuman-3D 512* 16.85 -
Ours 512 10.04 5.02
Ours 1024 8.70 4.04

消融实验

方法 分辨率 FID↓ 1000×KID↓
w/o SR (无超分) 256 13.47 9.13
w/o DA (无深度聚合) 1024 9.38 4.56
w/o UL (无上采样损失) 1024 13.52 8.18
完整模型 1024 8.70 4.04

计算效率对比:本方法在512分辨率仅需10G显存,远低于EVA3D(34G)和AG3D(21G)。

关键发现

  • 1024²分辨率比512²进一步降低FID(8.70 vs 10.04),说明超分模块确实提升了质量
  • 深度聚合策略有效解决了边缘深度不连续问题
  • 上采样损失对保持低分辨率与高分辨率一致性至关重要

亮点与洞察

  1. 完全独立的语义生成是实现几何+纹理双重解耦的关键,与之前方法用单生成器+共享特征的策略截然不同
  2. 巧妙利用深度和语义引导将采样点从432降至11,使1024²分辨率生成成为可能
  3. 解耦表示开启了3D服装生成、语义虚拟试穿、跨域合成等新应用

局限与展望

  • 数据集约束:罕见姿态和视角效果受限
  • 2D监督下实现精确3D几何仍然困难
  • 手部生成质量有待提高

相关工作与启发

本文将EG3D的tri-plane表示扩展到组合式人体生成,思路与CNeRF类似但独立性更强。3D感知超分模块的设计可推广到其他NeRF生成模型。

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实用性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐

相关论文