Generative Modeling of Shape-Dependent Self-Contact Human Poses¶

会议: ICCV 2025
arXiv: 2509.23393
代码: https://tkhkaeio.github.io/projects/25-scgen
领域: 图像生成 / 人体姿态建模 / 自接触姿态
关键词: Self-Contact, Body Shape, diffusion model, SMPL-X, Pose Generation, Pose Refinement

一句话总结¶

构建首个大规模精确形状标注的自接触姿态数据集Goliath-SC（383K姿态/130个subject），提出形状条件的部件感知潜在扩散模型PAPoseDiff来建模体型依赖的自接触姿态分布，并利用学到的扩散先验进行单视角姿态refinement，在unseen subject上超越BUDDI和SMPLer-X等SOTA方法。

研究背景与动机¶

问题定义¶

自接触姿态（如摸脸、交叉手臂、手放在身体上）在日常生活中极为常见，且与心理状态表达、手语交流密切相关。关键挑战：自接触姿态本质上受体型约束——同一个"揉肚子"的动作，瘦体型和胖体型的人呈现完全不同的姿态和接触区域。

现有方法的局限¶

数据集不足： - HumanSC3D：仅1K自接触姿态/6个subject - MTP：1.6K姿态/148个subject，但无配对RGB图像导致annotation不准确 - InterHand2.6M/Decaf：聚焦于手-手或手-脸的局部交互，忽略全身姿态对接触的影响

方法局限： - 回归方法（SMPLer-X）：通过ViT直接回归姿态，缺乏接触先验 - BUDDI：学习两个body的联合分布，但非潜在扩散且无部件感知注意力 - 现有方法建模pose-shape联合分布，未显式建模"pose依赖于shape"的条件关系

核心洞察¶

体型（BMI、骨骼比例等）决定了自接触姿态的可行空间：低BMI的人搓肚子时手臂角度与高BMI的人完全不同。需要显式建模 \(p(\theta | \beta)\) 而非 \(p(\theta, \beta)\)。

方法详解¶

整体框架¶

PAPoseDiff包含三个阶段： 1. 数据构建：从Goliath多相机dome捕获 → SMPL-X拟合 → 接触图分析 → 筛选自接触帧 2. 生成训练：部件式SMPL-X参数 → 各部件自动编码器编码为潜在空间 → 形状条件+时间步条件的自注意力Transformer → 去噪预测 3. 单视角refinement：初始SMPL-X估计 → 加噪到中间步 → 以2D关键点fitting为引导的条件去噪 → 输出refined姿态

关键设计1：部件感知潜在扩散（PAPoseDiff）¶

数据表示： - 目标（去噪对象）：\(\mathbf{X} = [\theta_f, \theta_{rh}, \theta_{lh}, \theta_b]\)，分别为脸+表情、右手、左手、身体的姿态参数 - 条件：SMPL-X的shape参数 \(\mathbf{I} \in \mathbb{R}^{300}\)

潜在扩散： - 为每个部件训练自动编码器，将高维姿态参数编码为低维潜在表示 - 在潜在空间进行扩散，因为自接触姿态被限制在身体表面附近的低维流形上

部件感知自注意力： - 将face/right_hand/left_hand/body/time/shape的embedding拼接为序列 - 自注意力使模型能学习部件间交互（如手与身体的接触关系） - 添加部件可学习embedding以促进部件感知的关系学习

关键设计2：形状条件扰动¶

直接条件dropout（\(c=\varnothing\)，shape=0）对应"平均体型"，缺乏个体特异信号。替代方案——shape参数微扰动：

\[\mathbf{c} = \mathbf{I} + s_I \epsilon, \quad \epsilon \sim \mathcal{N}(0,1)\]

以30%概率替换，\(s_I = 10^{-4}\)。假设：相似体型的人执行相似自接触姿态。这比conditional dropout更好地增强subject多样性。

关键设计3：训练损失¶

\[\mathcal{L}_D = \lambda_\theta L_\theta + \lambda_v L_v + \lambda_{col} L_{col}\]

\(L_\theta\)：姿态参数L1损失
\(L_v\)：SMPL-X网格顶点L1损失
\(L_{col}\)：碰撞损失——使用射线追踪碰撞检测器（仅检测手相关碰撞，避免腋下误检）

关键设计4：单视角姿态refinement（Algorithm 1）¶

给定初始估计 \(\mathbf{X}_0^{init}\)，仅从最后10%步长开始去噪： 1. 加噪初始姿态到步数\(n_r=100\) 2. 每步去噪时加入2D关键点fitting梯度引导 3. 可选：Blended Pose Denoising——仅refine感兴趣的身体部位（如上半身），其余保持初始值

关键优势：无需额外fine-tuning（对比InterHandGen的SDS方法），可直接用于任何2D/3D估计器的输出。

实验关键数据¶

数据集：Goliath-SC¶

383K自接触姿态，130个subject（70F/56M/4NB）
220台RGB相机的多相机dome + 3D全身扫描
脚本化动作指令（如"揉脖子"），30Hz捕获
训练集313K，评估集9.7K（unseen subjects）

自接触姿态生成结果¶

方法	FID↓	KID(×10⁻³)↓	Diversity↑	Precision↑	Recall↑	Col.ratio↓
VPoser*(shape-cond)	9.16	0.882	3.20	1.0	0.005	1.37
BUDDI*(shape-cond)	2.66	1.12	5.59	0.995	0.488	1.47
PAPoseDiff(Ours)	1.25	0.430	5.98	0.985	0.708	1.52

FID比BUDDI*降低53%，Recall（覆盖度）从0.488提升到0.708。

消融实验¶

模型变体	FID↓	Diversity↑	Col.ratio↓
w/o Shape cond.	2.18	5.52	1.92
w/o PASA	1.42	5.74	1.62
w/o Shape rand.	1.27	5.89	1.41
w/o Anti-col.	1.28	6.01	1.85
Full model	1.25	5.98	1.52

关键发现： 1. Shape条件是最重要因素：移除后FID从1.25升到2.18（+74%） 2. 部件感知自注意力(PASA)贡献显著（FID 1.42→1.25） 3. Anti-collision guidance有效降低碰撞率（1.85→1.52）同时保持FID

单视角姿态估计refinement（MPJPE mm）¶

初始估计器	初始	+2D fitting	+BUDDI*	+Ours(w/o shape)	+Ours
Hand4Whole	126.3	89.5	74.5	37.9	35.3
HybrIK-X	82.3	51.8	65.0	45.9	32.4
SMPLer-X	58.0	41.7	71.7	33.7	31.8
SMPLer-X†	42.0	41.7	-	-	-

关键发现： 1. PAPoseDiff先验在所有初始估计器上都显著改善结果，初始越差改善越大 2. Shape条件refine手部误差尤为明显（如HybrIK-X：85.5→58.7 mm） 3. BUDDI*在初始估计较好时反而有限（SMPLer-X：58.0→71.7），说明精细接触先验需要更精确的建模 4. 形状条件先验优于无条件先验，尤其在手和身体部位

亮点与洞察¶

数据集的里程碑意义：Goliath-SC比现有数据集大2个数量级（383K vs 1-4K），首次提供精确body shape标注的全身自接触数据，覆盖130个不同体型的subject
条件生成 vs 联合生成：首次提出将自接触姿态建模为 \(p(\theta|\beta)\) 而非 \(p(\theta,\beta)\)——体型是"约束"而非"自由度"，这一假设被实验有力验证
Shape perturbation > Conditional dropout：对于连续条件变量（如SMPL-X shape），微扰动比置零更能增强泛化——因为零shape对应"模板体型"，而微扰对应"相似体型"
高效refinement：仅用最后10%步长(100步)去噪，无需额外训练，可插拔到任何SMPL-X估计器之后
碰撞检测的实用优化：限制在手相关碰撞，避免腋下等解剖特殊区域的误检

局限性¶

手-手交互的精细碰撞仍难以完全消除（高自由度区域）
仅处理有接触的场景，扩展到非接触的一般姿态建模（如MTP）是有待探索的方向
数据集仅包含脚本化动作，自然场景中的自发自接触（如无意识摸脸）未覆盖
仅建模局部姿态（忽略全局朝向和平移），限制了部分应用场景
时间维度和语言内容的融入留待未来工作

评分 ⭐⭐⭐⭐¶

创新性：⭐⭐⭐⭐（shape条件扩散+部件感知注意力+高效refinement的组合设计新颖）
实验：⭐⭐⭐⭐⭐（包含生成评估+估计refinement+消融+形状插值定性分析，数据集本身是重要贡献）
写作：⭐⭐⭐⭐（逻辑清晰，问题动机明确，Algorithm 1的refinement流程描述精炼）
实用性：⭐⭐⭐⭐（先验模型可插拔到任何SMPL-X估计器后，无需重训练，但数据集未开源限制复现）