跳转至

SimAvatar: Simulation-Ready Avatars with Layered Hair and Clothing

会议: CVPR 2025
arXiv: 2412.09545
代码: 项目页面
领域: 3D视觉 / 数字人生成
关键词: 仿真就绪虚拟人, 分层表示, 头发丝模拟, 服装模拟, 文本驱动生成

一句话总结

SimAvatar提出首个完全仿真就绪的文本驱动3D虚拟人生成框架,通过将身体、服装和头发分层表示为SMPL网格、服装网格和发丝,并在其上附着3D高斯学习外观,既能利用扩散模型先验获得逼真纹理,又能直接接入物理/神经模拟器产生真实的动态效果。

研究背景与动机

文本驱动的3D虚拟人生成取得了显著进展,但现有方法面临一个根本矛盾:

  1. 单层表示方法(GAvatar、TADA等)将头发、身体和服装作为统一几何体,使用线性混合蒙皮动画。无法独立模拟各区域,松散服装和头发的动态效果不真实——例如裙子在抬腿时被不自然地分成两片。

  2. 分层但不可模拟的方法(HumanLiff、TELA等)使用NeRF等隐式表示分别建模各层,虽然方便利用扩散模型优化,但从NeRF提取的网格噪声大,无法被现有服装/头发模拟器直接使用。

核心挑战在于连接两种表示:模拟器需要清洁的非水密网格或专设计的发丝(拓扑固定、难以优化),而生成管线需要隐式表示(可被扩散模型的噪声监督优化,但难以转为可模拟格式)。SimAvatar的关键洞察:为不同身体部位采用合适的表示,利用3D高斯作为桥梁。

方法详解

整体框架

SimAvatar分为三步:(1) 使用三个文本条件生成模型分别生成服装网格、SMPL体型和发丝;(2) 在三层几何上附着3D高斯,通过SDS优化学习外观;(3) 动画时用物理模拟器驱动服装和发丝,再将运动传递给高斯。身体用LBS驱动,服装用HOOD神经模拟器,头发用物理模拟器。

关键设计1: 文本条件服装扩散模型

  • 功能: 从文本提示生成清洁、可模拟的非水密服装网格
  • 核心思路: 先训练VAE学习服装几何隐空间——将均匀采样的10000个点编码为\(Z \in \mathbb{R}^{512 \times 16}\)向量,解码器用UDF(Unsigned Distance Field)表示非水密网格。再在隐空间训练文本条件扩散模型,用BERT提取文本嵌入通过交叉注意力注入。推理时从噪声去噪到隐码再解码为网格。训练数据包含~20000个配对网格和文本标注
  • 设计动机: 直接用SDS优化非水密服装网格无法改变拓扑且容易产生噪声网格。学习式生成模型保证了输出网格的清洁性和多样性

关键设计2: 3D高斯的分部位定制

  • 功能: 在仿真就绪的几何上建模高保真外观,并确保运动一致性
  • 核心思路: (a) 网格高斯(身体/服装):每个高斯关联到网格面,位置/旋转/缩放在面的局部坐标系定义,通过\(\hat{\mu}_i(\theta) = kR(\theta) \cdot p_i + P(\theta)\)转换到全局。颜色和不透明度由隐式场\(\mathcal{F}_\phi\)查询(身体和服装分离的隐式场防止纹理纠缠)。(b) 发丝高斯:每个线段分配一个高斯,位置\(\mu_i = (l_i + l_{i+1})/2\),缩放沿发丝方向长、径向超薄(\(\gamma=0.001\)),旋转从发丝方向计算
  • 设计动机: 高斯既灵活可被网格/发丝驱动,又具有出色的外观建模能力。分部位定制确保每种几何的独特结构得到尊重

关键设计3: 发丝不透明度正则化与Phong着色

  • 功能: 防止发丝断裂和烘焙阴影
  • 核心思路: (a) 发丝正则化\(L_{hair} = \frac{1}{N_s N_l} \sum_{i=1}^{N_s} \sum_{j=2}^{N_l} (o_{i,j-1} - o_{i,j})\),鼓励靠近头皮的高斯不透明度大于远端,优化过程可修剪多余发丝而不产生断裂。(b) Phong着色模型随机采样点光源位置/颜色生成着色,鼓励高斯学习姿态无关的反照率而非烘焙阴影
  • 设计动机: SDSq优化的高方差性容易导致发丝中间出现透明高斯(断裂)。分离光照确保动画时褶皱等动态光照效果正确

损失函数

最终损失为\(L = L_{SDS} + \lambda_{hair} L_{hair}\),其中\(L_{SDS}\)为Score Distillation Sampling损失(使用预训练文本到图像扩散模型),\(\lambda_{hair} = 1.0\)

实验关键数据

用户研究: 与SOTA方法的偏好对比

指标 vs TADA vs Fantasia3D vs GAvatar
外观偏好(选SimAvatar%) 89.55% 100% 87.03%
运动偏好(选SimAvatar%) 91.87% 100% 94.47%

定性对比

方面 SimAvatar GAvatar/TADA
松散服装(裙子) 物理真实的摆动 不自然地分裂
头发动态 流畅的发丝飘动 固定跟随身体
纹理质量 高保真,细节丰富 模糊或伪影

关键发现

  • 用户偏好在外观和运动上都压倒性选择SimAvatar(87-100%)
  • 首次在文本驱动虚拟人中实现裙子、长发等的物理真实动态
  • 服装扩散模型覆盖T恤、外套、短裤、裙子等常见类型
  • Phong着色有效防止了阴影烘焙问题

亮点与洞察

  1. 首个完全仿真就绪的文本驱动虚拟人:真正解决了"生成"与"模拟"之间的表示鸿沟
  2. 3D高斯作为桥梁表示:既保持了仿真几何的物理正确性,又提供了扩散模型所需的优化灵活性
  3. 分层+分部位策略:针对身体/服装/头发的不同物理属性采用定制化解决方案

局限与展望

  • 头发和服装生成模型受训练数据多样性限制
  • 服装和头发目前顺序模拟,无法处理帽兜等需要联合模拟的场景
  • 配饰和鞋子仍与身体/服装层纠缠
  • 未来可探索联合模拟和完全解纠缠的虚拟人生成

相关工作与启发

  • GAvatar: 基于primitive的3DGS虚拟人,单层表示无法模拟
  • TADA: 网格+自适应细分,质量高但同样单层
  • HOOD: 神经服装模拟器,SimAvatar直接集成使用
  • HAAR: 文本条件发丝扩散模型,SimAvatar调用生成初始发丝
  • 启发:将生成和物理模拟在表示层面解耦,让各自发挥所长

评分

⭐⭐⭐⭐ — 首次将文本驱动生成的灵活性与物理模拟的真实性统一到一个框架中。分层设计合理,用户研究的压倒性优势证明了方法的有效性。对虚拟人生成领域有重要引领作用。

相关论文