ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling¶

会议: ICCV 2025
arXiv: 2508.15767
代码: 项目主页 (有)
领域: 3D人体建模 / 参数化人体模型
关键词: 参数化人体模型, 骨骼-形状解耦, 姿态校正变形, 线性混合蒙皮, 单图重建

一句话总结¶

提出ATLAS参数化人体模型，通过显式解耦外部表面形状和内部骨骼参数，并引入稀疏非线性姿态校正变形，在60万高分辨率扫描数据上训练，实现了比SMPL-X更精确、更可控的3D人体建模。

背景与动机¶

当前主流参数化人体模型（SMPL、SMPL-X、STAR等）采用以顶点为中心的框架：先用线性基优化外部表面顶点，再从表面顶点回归内部骨骼关节点。这种范式存在三个根本性问题：

骨骼-表面耦合：从表面顶点推导的关节点引入了不正确的关联——SMPL-X的骨骼关节存在明显不对称性（肘部、脊柱、脚部），且软组织变化会导致脊柱偏移
控制性差：骨骼属性只能通过改变形状参数来修改，这不可避免地影响其他表面属性。例如调整肩宽会同时影响全身软组织
关键点拟合产生伪影：关键点不含软组织信息，但耦合模型在拟合关键点时会产生不合理的软组织变形

核心问题¶

如何设计一个参数化人体模型，使外部表面形状（体重、手臂粗细等软组织属性）和内部骨骼结构（身高、骨骼长度、肩宽等）完全解耦，同时保持高保真度和精确可控性？

方法详解¶

整体框架¶

ATLAS采用两步生成人体网格： 1. 表面定制：在固定模板骨骼上自定义表面顶点（调整软组织），此时骨骼不变 2. 骨骼定制+姿态驱动：通过LBS同时缩放和驱动网格，修改底层骨骼的76个可控属性

核心公式：
- 表面定制：$\tilde{X}(\beta_s, \beta_f, \theta) = \bar{X} + \mathcal{B}_s(\beta_s, \mathcal{S}) + \mathcal{B}_f(\beta_f, \mathcal{F}) + \mathcal{B}_p(\theta, \mathcal{P})$ - 最终输出：$X(\beta, \theta) = M(\tilde{X}(\beta_s, \beta_f, \theta), \mathcal{B}_k(\beta_k), \theta, \omega)$

关键区别：关节位置仅由骨骼参数$\beta_k$和姿态$\theta$决定，与表面形状参数$\beta_s$完全无关。

关键设计¶

解耦的骨骼-形状空间：将传统模型中混在一起的形状变化拆分为独立的表面PCA空间（128维，管软组织）和骨骼空间（16维，管骨骼结构）。骨骼定义76个可控属性：15个部位缩放（全身、头、手、脚、各手指）+ 61个骨骼长度参数（脊柱、颈部、上/下臂、上/下腿、手指骨等）。训练时先用骨骼参数+三角化关键点拟合骨骼变化，再优化表面形状建模软组织。
稀疏非线性姿态校正变形：结合稀疏线性（STAR）和密集非线性（GHUM）的优点。对每个关节$j$及其运动学邻居，用轻量MLP编码局部非线性特征：$\text{Non-Linear}_j(\theta) = \text{MLP}(\{R_{6d}(\theta_a) - R_{6d}(\vec{0}) | a \in n(j)\})$。然后通过测地线初始化的稀疏掩码$\phi(A_j)$约束影响范围：$\mathcal{B}^p_j = \phi(A_j) \odot (P_j \times \text{Non-Linear}_j(\theta))$。L1正则化鼓励稀疏性，避免如"一只肘弯曲影响另一只肘顶点"的虚假相关。
单图像网格拟合流水线：利用解耦特性，分阶段优化——骨骼参数$\beta_k$仅通过关键点+深度项优化（$E_{kps2d} + E_{depth}$），表面参数$\beta_s$仅通过轮廓遮罩项优化（$E_{mask}$）。结合Sapiens的相对深度预测、Edge Gradients的可微渲染、VAE姿态先验（32维潜空间，60万帧训练）和手部PCA先验。

损失函数 / 训练策略¶

模型训练损失： $$\mathcal{L} = \mathcal{L}_{data} + \mathcal{L}_{shape\_reg} + \mathcal{L}_{skele\_reg} + \mathcal{L}_{skin\_lapl} + \mathcal{L}_{pc\_lapl} + \mathcal{L}_{skin\_init} + \mathcal{L}_{pc\_act\_reg}$$

$\mathcal{L}_{data}$：顶点到顶点距离（核心重建项）
$\mathcal{L}_{shape\_reg}$, $\mathcal{L}_{skele\_reg}$：自编码器中间潜变量L2正则
$\mathcal{L}_{skin\_lapl}$, $\mathcal{L}_{pc\_lapl}$：蒙皮权重和姿态校正混合形状的余切Laplacian正则
$\mathcal{L}_{skin\_init}$：蒙皮权重向艺术家初始化值的L2正则
$\mathcal{L}_{pc\_act\_reg}$：姿态校正激活矩阵的L1稀疏正则

训练策略：使用有序Dropout——每次迭代随机采样成分数$n \in [1, \text{max}]$，仅保留前$n$个特征，维持成分重要性层次。

实验关键数据¶

数据集	指标	本文(ATLAS)	之前SOTA(SMPL-X)	提升
3DBodyTex (32 comp)	顶点误差(mm)	-	-	21.6%↓
Goliath-Test	拟合误差(mm)	2.34	2.78	15.8%↓
Goliath-Test (单图)	顶点误差(mm)	55.4	87.7(SMPLify-X)	36.8%↓
Goliath-Test (单图)	3D关节误差(mm)	53.7	73.2(SMPLify-X)	26.6%↓
SMPL数据集	姿态校正拟合(mm)	1.61(非线性)	1.82(线性)	11.5%↓

运行时性能（A100 GPU）：

模型	顶点数	推理时间(ms)
SMPL-X	10,475	3.74
ATLAS (SMPL-X拓扑)	10,475	2.47
ATLAS (高分辨率)	115,834	5.37

消融实验要点¶

形状+骨骼解耦的必要性（Table 4）：
仅用形状参数：3DBodyTex 6.47mm / Goliath 4.76mm
仅用骨骼参数：3DBodyTex 3.17mm / Goliath 2.67mm
两者结合：3DBodyTex 2.48mm / Goliath 2.34mm
结论：形状捕捉软组织，骨骼捕捉结构，二者互补
非线性vs线性姿态校正：非线性校正在肩部等复杂关节和极端姿态下的肌肉隆起建模更自然，误差从1.82mm降至1.61mm
单图拟合消融（Table 3）：去掉相对深度→60.7/54.5mm；去掉深度和遮罩→61.8/55.7mm，每个数据项都有贡献

亮点¶

问题洞察深刻：清楚指出SMPL系列"从表面推导骨骼"的根本局限，提出反向思路"以骨骼为基础"
数据规模惊人：60万高分辨率扫描（240相机同步，130个主体），远超现有数据集（SMPL仅1.2K扫描/27主体）
解耦控制的实际价值：可独立调整肩宽、手臂长度、体重而不互相干扰——这在动画/游戏/VR应用中极为重要
稀疏非线性校正兼顾了STAR的稀疏性和GHUM的表达力，通过测地线初始化+L1正则实现
支持多分辨率：从6,890到115,834顶点，原生高分辨率训练
工程质量高：优化的CUDA实现使推理比SMPL-X更快（同顶点数下2.47ms vs 3.74ms）

局限性 / 可改进方向¶

数据覆盖不完全：15,000主体仍不能覆盖人体变化的全部范围（极端体型、残障人士等）
数据采集成本高：高分辨率人体扫描的采集和处理仍然耗时昂贵，是扩展的瓶颈
未涉及衣物：模型针对最少穿着的人体，对穿衣场景的适应性需要进一步验证
未与最新的隐式/NeRF/3DGS方法对比：如何与神经隐式表示结合可能是有价值的方向
面部和手部表情空间借自FLAME而非从头学习，可能限制面+身体的联合表达

与相关工作的对比¶

方法	主体数	姿态数	扫描数	骨骼解耦	姿态校正
SMPL	-	40	1.8K	✗	线性密集
SMPL-X	-	40	1.8K	✗	线性密集
STAR	-	40	1.8K	✗	线性稀疏
GHUM	-	48	60K	✗	非线性密集
SKEL	-	113	1M†	✓(继承SMPL形状)	继承SMPL
BLSM	-	10	41K	✓	无
ATLAS	15K	157	600K	✓(独立)	非线性稀疏

ATLAS相比SKEL的核心优势：SKEL将SMPL的顶点形状空间映射到骨骼，但仍继承SMPL的形状空间和有限姿态校正；ATLAS从头构建独立的表面和骨骼空间，更彻底地解耦。

启发与关联¶

与Sapiens的协同：ATLAS的单图拟合流水线直接使用Sapiens的深度预测，表明ATLAS可作为Sapiens等视觉基础模型的下游几何模块——未来可考虑端到端训练
解耦思想的迁移：骨骼-表面解耦的思路可推广到手部模型（MANO替代）、动物模型（SMAL替代）等其他可变形对象建模
与人体视频理解的关联：workspace中的人体视频Mamba idea可受益于ATLAS提供的更精确骨骼先验，在视频中追踪骨骼而非表面可能更鲁棒
稀疏非线性校正的通用性：测地线初始化+MLP局部编码+L1稀疏化的组合可能适用于任何LBS驱动的可变形模型
对人体解析的启示：workspace中的Diffusion Sapiens Human Parsing idea可利用ATLAS的解耦属性生成更多样化的人体变化数据

评分¶

新颖性: ⭐⭐⭐⭐ 解耦骨骼和形状的思路在BLSM/SKEL中已有雏形，但ATLAS在数据规模、完整管线和稀疏非线性校正上做到了更彻底
实验充分度: ⭐⭐⭐⭐⭐ 多数据集定量对比、多维度消融（解耦/校正/拟合项）、定性可视化、运行时分析均非常充分
写作质量: ⭐⭐⭐⭐⭐ 动机阐述清晰，Figure 1/2的对比直观有力，数学表述严谨，补充材料详尽
价值: ⭐⭐⭐⭐⭐ 作为SMPL-X的潜在替代，对3D人体理解/动画/VR/动捕等应用有广泛影响，60万扫描数据的规模优势难以复制