ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling¶
会议: ICCV 2025
arXiv: 2508.15767
代码: 项目主页 (有)
领域: 3D人体建模 / 参数化人体模型
关键词: 参数化人体模型, 骨骼-形状解耦, 姿态校正变形, 线性混合蒙皮, 单图重建
一句话总结¶
提出ATLAS参数化人体模型,通过显式解耦外部表面形状和内部骨骼参数,并引入稀疏非线性姿态校正变形,在60万高分辨率扫描数据上训练,实现了比SMPL-X更精确、更可控的3D人体建模。
背景与动机¶
当前主流参数化人体模型(SMPL、SMPL-X、STAR等)采用以顶点为中心的框架:先用线性基优化外部表面顶点,再从表面顶点回归内部骨骼关节点。这种范式存在三个根本性问题:
- 骨骼-表面耦合:从表面顶点推导的关节点引入了不正确的关联——SMPL-X的骨骼关节存在明显不对称性(肘部、脊柱、脚部),且软组织变化会导致脊柱偏移
- 控制性差:骨骼属性只能通过改变形状参数来修改,这不可避免地影响其他表面属性。例如调整肩宽会同时影响全身软组织
- 关键点拟合产生伪影:关键点不含软组织信息,但耦合模型在拟合关键点时会产生不合理的软组织变形
核心问题¶
如何设计一个参数化人体模型,使外部表面形状(体重、手臂粗细等软组织属性)和内部骨骼结构(身高、骨骼长度、肩宽等)完全解耦,同时保持高保真度和精确可控性?
方法详解¶
整体框架¶
ATLAS采用两步生成人体网格: 1. 表面定制:在固定模板骨骼上自定义表面顶点(调整软组织),此时骨骼不变 2. 骨骼定制+姿态驱动:通过LBS同时缩放和驱动网格,修改底层骨骼的76个可控属性
核心公式:
- 表面定制:\(\tilde{X}(\beta_s, \beta_f, \theta) = \bar{X} + \mathcal{B}_s(\beta_s, \mathcal{S}) + \mathcal{B}_f(\beta_f, \mathcal{F}) + \mathcal{B}_p(\theta, \mathcal{P})\)
- 最终输出:\(X(\beta, \theta) = M(\tilde{X}(\beta_s, \beta_f, \theta), \mathcal{B}_k(\beta_k), \theta, \omega)\)
关键区别:关节位置仅由骨骼参数\(\beta_k\)和姿态\(\theta\)决定,与表面形状参数\(\beta_s\)完全无关。
关键设计¶
-
解耦的骨骼-形状空间:将传统模型中混在一起的形状变化拆分为独立的表面PCA空间(128维,管软组织)和骨骼空间(16维,管骨骼结构)。骨骼定义76个可控属性:15个部位缩放(全身、头、手、脚、各手指)+ 61个骨骼长度参数(脊柱、颈部、上/下臂、上/下腿、手指骨等)。训练时先用骨骼参数+三角化关键点拟合骨骼变化,再优化表面形状建模软组织。
-
稀疏非线性姿态校正变形:结合稀疏线性(STAR)和密集非线性(GHUM)的优点。对每个关节\(j\)及其运动学邻居,用轻量MLP编码局部非线性特征:\(\text{Non-Linear}_j(\theta) = \text{MLP}(\{R_{6d}(\theta_a) - R_{6d}(\vec{0}) | a \in n(j)\})\)。然后通过测地线初始化的稀疏掩码\(\phi(A_j)\)约束影响范围:\(\mathcal{B}^p_j = \phi(A_j) \odot (P_j \times \text{Non-Linear}_j(\theta))\)。L1正则化鼓励稀疏性,避免如"一只肘弯曲影响另一只肘顶点"的虚假相关。
-
单图像网格拟合流水线:利用解耦特性,分阶段优化——骨骼参数\(\beta_k\)仅通过关键点+深度项优化(\(E_{kps2d} + E_{depth}\)),表面参数\(\beta_s\)仅通过轮廓遮罩项优化(\(E_{mask}\))。结合Sapiens的相对深度预测、Edge Gradients的可微渲染、VAE姿态先验(32维潜空间,60万帧训练)和手部PCA先验。
损失函数 / 训练策略¶
模型训练损失: $\(\mathcal{L} = \mathcal{L}_{data} + \mathcal{L}_{shape\_reg} + \mathcal{L}_{skele\_reg} + \mathcal{L}_{skin\_lapl} + \mathcal{L}_{pc\_lapl} + \mathcal{L}_{skin\_init} + \mathcal{L}_{pc\_act\_reg}\)$
- \(\mathcal{L}_{data}\):顶点到顶点距离(核心重建项)
- \(\mathcal{L}_{shape\_reg}\), \(\mathcal{L}_{skele\_reg}\):自编码器中间潜变量L2正则
- \(\mathcal{L}_{skin\_lapl}\), \(\mathcal{L}_{pc\_lapl}\):蒙皮权重和姿态校正混合形状的余切Laplacian正则
- \(\mathcal{L}_{skin\_init}\):蒙皮权重向艺术家初始化值的L2正则
- \(\mathcal{L}_{pc\_act\_reg}\):姿态校正激活矩阵的L1稀疏正则
训练策略:使用有序Dropout——每次迭代随机采样成分数\(n \in [1, \text{max}]\),仅保留前\(n\)个特征,维持成分重要性层次。
实验关键数据¶
| 数据集 | 指标 | 本文(ATLAS) | 之前SOTA(SMPL-X) | 提升 |
|---|---|---|---|---|
| 3DBodyTex (32 comp) | 顶点误差(mm) | - | - | 21.6%↓ |
| Goliath-Test | 拟合误差(mm) | 2.34 | 2.78 | 15.8%↓ |
| Goliath-Test (单图) | 顶点误差(mm) | 55.4 | 87.7(SMPLify-X) | 36.8%↓ |
| Goliath-Test (单图) | 3D关节误差(mm) | 53.7 | 73.2(SMPLify-X) | 26.6%↓ |
| SMPL数据集 | 姿态校正拟合(mm) | 1.61(非线性) | 1.82(线性) | 11.5%↓ |
运行时性能(A100 GPU):
| 模型 | 顶点数 | 推理时间(ms) |
|---|---|---|
| SMPL-X | 10,475 | 3.74 |
| ATLAS (SMPL-X拓扑) | 10,475 | 2.47 |
| ATLAS (高分辨率) | 115,834 | 5.37 |
消融实验要点¶
- 形状+骨骼解耦的必要性(Table 4):
- 仅用形状参数:3DBodyTex 6.47mm / Goliath 4.76mm
- 仅用骨骼参数:3DBodyTex 3.17mm / Goliath 2.67mm
- 两者结合:3DBodyTex 2.48mm / Goliath 2.34mm
-
结论:形状捕捉软组织,骨骼捕捉结构,二者互补
-
非线性vs线性姿态校正:非线性校正在肩部等复杂关节和极端姿态下的肌肉隆起建模更自然,误差从1.82mm降至1.61mm
-
单图拟合消融(Table 3):去掉相对深度→60.7/54.5mm;去掉深度和遮罩→61.8/55.7mm,每个数据项都有贡献
亮点¶
- 问题洞察深刻:清楚指出SMPL系列"从表面推导骨骼"的根本局限,提出反向思路"以骨骼为基础"
- 数据规模惊人:60万高分辨率扫描(240相机同步,130个主体),远超现有数据集(SMPL仅1.2K扫描/27主体)
- 解耦控制的实际价值:可独立调整肩宽、手臂长度、体重而不互相干扰——这在动画/游戏/VR应用中极为重要
- 稀疏非线性校正兼顾了STAR的稀疏性和GHUM的表达力,通过测地线初始化+L1正则实现
- 支持多分辨率:从6,890到115,834顶点,原生高分辨率训练
- 工程质量高:优化的CUDA实现使推理比SMPL-X更快(同顶点数下2.47ms vs 3.74ms)
局限性 / 可改进方向¶
- 数据覆盖不完全:15,000主体仍不能覆盖人体变化的全部范围(极端体型、残障人士等)
- 数据采集成本高:高分辨率人体扫描的采集和处理仍然耗时昂贵,是扩展的瓶颈
- 未涉及衣物:模型针对最少穿着的人体,对穿衣场景的适应性需要进一步验证
- 未与最新的隐式/NeRF/3DGS方法对比:如何与神经隐式表示结合可能是有价值的方向
- 面部和手部表情空间借自FLAME而非从头学习,可能限制面+身体的联合表达
与相关工作的对比¶
| 方法 | 主体数 | 姿态数 | 扫描数 | 骨骼解耦 | 姿态校正 |
|---|---|---|---|---|---|
| SMPL | - | 40 | 1.8K | ✗ | 线性密集 |
| SMPL-X | - | 40 | 1.8K | ✗ | 线性密集 |
| STAR | - | 40 | 1.8K | ✗ | 线性稀疏 |
| GHUM | - | 48 | 60K | ✗ | 非线性密集 |
| SKEL | - | 113 | 1M† | ✓(继承SMPL形状) | 继承SMPL |
| BLSM | - | 10 | 41K | ✓ | 无 |
| ATLAS | 15K | 157 | 600K | ✓(独立) | 非线性稀疏 |
ATLAS相比SKEL的核心优势:SKEL将SMPL的顶点形状空间映射到骨骼,但仍继承SMPL的形状空间和有限姿态校正;ATLAS从头构建独立的表面和骨骼空间,更彻底地解耦。
启发与关联¶
- 与Sapiens的协同:ATLAS的单图拟合流水线直接使用Sapiens的深度预测,表明ATLAS可作为Sapiens等视觉基础模型的下游几何模块——未来可考虑端到端训练
- 解耦思想的迁移:骨骼-表面解耦的思路可推广到手部模型(MANO替代)、动物模型(SMAL替代)等其他可变形对象建模
- 与人体视频理解的关联:workspace中的人体视频Mamba idea可受益于ATLAS提供的更精确骨骼先验,在视频中追踪骨骼而非表面可能更鲁棒
- 稀疏非线性校正的通用性:测地线初始化+MLP局部编码+L1稀疏化的组合可能适用于任何LBS驱动的可变形模型
- 对人体解析的启示:workspace中的Diffusion Sapiens Human Parsing idea可利用ATLAS的解耦属性生成更多样化的人体变化数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 解耦骨骼和形状的思路在BLSM/SKEL中已有雏形,但ATLAS在数据规模、完整管线和稀疏非线性校正上做到了更彻底
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集定量对比、多维度消融(解耦/校正/拟合项)、定性可视化、运行时分析均非常充分
- 写作质量: ⭐⭐⭐⭐⭐ 动机阐述清晰,Figure 1/2的对比直观有力,数学表述严谨,补充材料详尽
- 价值: ⭐⭐⭐⭐⭐ 作为SMPL-X的潜在替代,对3D人体理解/动画/VR/动捕等应用有广泛影响,60万扫描数据的规模优势难以复制