ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness¶

会议: ICCV 2025
arXiv: 2503.10624
代码: https://boqian-li.github.io/ETCH
领域: 3D视觉 / 人体重建 / 穿衣人体拟合
关键词: Body Fitting, Clothed Humans, SE(3) Equivariance, Tightness Vector, SMPL, Point Cloud

一句话总结¶

提出ETCH框架，通过建模从衣物表面到体表的SE(3)等变紧密度向量(tightness vector)，将穿衣人体的body fitting简化为tightness-aware的稀疏marker拟合任务，在CAPE和4D-Dress数据集上相比SOTA方法（含tightness-agnostic和tightness-aware方法）在宽松衣物上提升16.7%~69.5%的关节误差，形状精度平均提升49.9%。

研究背景与动机¶

问题定义¶

给定穿衣人体的3D点云，目标是拟合出其内部的SMPL参数化人体模型（姿态θ、形状β、平移t）。该任务在动作捕获、虚拟试穿、沉浸式传送等应用中至关重要。

现有方法的局限¶

优化方法（NICP等）：依赖多阶段pipeline（多视角渲染→2D关键点→三角化→SMPL优化），对姿态初始化敏感，宽松衣物下2D关键点检测失败导致级联错误

Tightness-agnostic学习方法（ArtEq）：通过关节级SE(3)等变性处理姿态泛化，但无法处理衣物偏离身体的情况（如裙子、膨胀外套），直接回归身体参数

Tightness-aware方法（IPNet/PTF）：尝试分离衣物层，但使用标量tightness（UV map或双层占据场），在OOD姿态/形状上仍然困难

核心洞察¶

衣物虽然不严格遵循关节运动，但其从外表面到体表面的位移向量在局部近似满足SE(3)等变性——将"等变性"和"紧密度"结合，即可同时获得姿态泛化能力和衣物解耦能力。

方法详解¶

整体框架¶

ETCH分两阶段： 1. 等变紧密度向量预测：输入点云X → EPN网络提取SO(3)等变/不变特征 → 预测紧密度方向D（等变特征）、幅度B（不变特征）、标签L和置信度C（不变特征+Point Transformer） 2. Marker聚合与SMPL优化：沿紧密度向量将外表面点射向内体表面 → 按标签分组+置信度加权聚合为86个稀疏marker → Levenberg-Marquardt优化SMPL参数

关键设计1：等变紧密度向量¶

紧密度向量 $\mathbf{v}_i = b_i \mathbf{d}_i$ 由方向和幅度两部分组成： - 方向预测（SE(3)等变）：利用EPN的SO(3)等变特征 $\mathbf{f}^{equiv} \in \mathbb{R}^{N \times 60 \times C}$，通过self-attention网络在旋转群维度上学习权重 $w_{ij}$，加权组合60个离散旋转矩阵并通过SVD投影到SO(3)，获得逐点旋转矩阵 $\hat{\mathcal{R}}_i$，乘以单位向量得到方向 - 幅度预测（不变特征）：对等变特征mean pooling得到不变特征 $\mathbf{f}^{inv}$，通过Point Transformer捕获上下文信息后回归幅度值

关键设计2：Marker标签与置信度¶

标签L：86类分类任务，指示每个外表面点对应哪个body marker，使用Point Transformer + softmax
置信度C：通过Group Convolution和soft aggregation计算，基于geodesic距离的指数衰减定义GT置信度：$c_i = \exp(-\lambda \times g(\mathbf{m}_k, \mathbf{y}_j; \mathcal{S}_Y))$

关键设计3：稀疏Marker聚合¶

对每个marker $k$，选取预测标签与之匹配的top-m个高置信度内点，进行加权聚合：

\[\hat{\mathbf{m}}_k = \frac{\sum_{i=1}^{m} \hat{\mathbf{y}}_i^{\hat{l}_i=k} \cdot (\hat{c}_i^{\hat{l}_i=k})^\alpha}{\sum_{i=1}^{m} (\hat{c}_i^{\hat{l}_i=k})^\alpha}\]

α进一步放大高置信度点的影响。最终对标记marker做SMPL参数优化（L-M算法）。

损失函数¶

多任务监督（非端到端训练）： $$\mathcal{L} = w_d \mathcal{L}_d + w_b \mathcal{L}_b + w_l \mathcal{L}_l + w_c \mathcal{L}_c$$ - $\mathcal{L}_d$：方向余弦损失 - $\mathcal{L}_b$：幅度MSE损失 - $\mathcal{L}_l$：标签交叉熵损失 - $\mathcal{L}_c$：置信度MSE损失

实验关键数据¶

数据集¶

CAPE：15个subject，紧致衣物，26K训练/1K验证帧，跨subject划分
4D-Dress：32个subject/64套装，宽松衣物+大动态，59K训练/1.9K验证帧，跨motion序列划分

主实验结果¶

方法	类型	CAPE V2V↓	CAPE MPJPE↓	4D-Dress V2V↓	4D-Dress MPJPE↓
NICP	Agnostic	1.726	1.343	4.754	3.654
ArtEq	Agnostic	2.200	1.557	2.328	1.657
IPNet	Aware	2.593	1.917	3.826	2.625
PTF	Aware	2.036	1.497	2.796	2.053
ETCH	Aware	1.647	0.922	1.939	1.116

关键发现：ETCH在所有数据集所有指标上全面领先。4D-Dress上MPJPE比ArtEq降低32.6%，比PTF降低45.6%。

消融实验¶

设置	紧密度	对应关系	方向特征	CAPE V2V↓	4D-Dress V2V↓
Ours（完整）	向量	稀疏Marker	等变	1.647	1.939
Ours-A（无等变）	向量	稀疏Marker	XYZ	1.661	2.033
Ours-C（稠密对应）	向量	稠密	等变	1.909	2.285
Ours-D（标量）	标量	稠密	等变	1.777	2.410
Ours-E（仅不变）	向量	稀疏Marker	不变	1.888	2.842

关键发现： 1. 稀疏marker vs 稠密对应：稀疏marker在CAPE/4D-Dress上V2V分别降低13.7%/15.1% 2. 等变特征在one-shot（~1%数据）设置下方向误差降低67.2%~89.8%，展现强OOD泛化 3. 向量tightness在宽松衣物（4D-Dress）上明显优于标量 4. 形状精度（β参数MAE）平均提升49.9%

挑战子集（4D-Dress）¶

挑战类型	ETCH V2V↓	次优方法 V2V↓	提升
宽松衣物	2.276	3.264 (PTF)	30.3%
极端形状	1.831	2.137 (ArtEq)	14.3%
挑战姿态	1.992	2.420 (ArtEq)	17.7%

亮点与洞察¶

向量式tightness的创新性：不同于TightCap的标量UV map或IPNet的双层占据场，将tightness建模为从衣物到身体的位移向量，天然具备方向性，能正确指向内体表面
等变性+紧密度的互补：ArtEq的关节级等变性无法处理宽松衣物，标量tightness缺乏方向信息——ETCH的核心在于发现"cloth-to-body位移向量满足近似局部SE(3)等变性"，两者互补
稀疏marker的投票机制：相比稠密对应的逐点优化，稀疏marker+置信度加权聚合形成投票策略，对outlier鲁棒
无需额外先验：不像IPNet/PTF/NICP需要VPoser姿态先验或形状正则化，ETCH仅用86个marker直接优化，且效果更好
One-shot泛化能力出色：仅用~1%数据训练，等变特征仍能给出正确方向预测

局限性¶

部分输入失败：缺失点云区域无法捕获marker，导致拟合失败
细结构不支持：当前marker布局未覆盖手指和面部细节，扩展到SMPL-X需要统一框架处理多尺度感受野
可扩展性未知：在当前中等规模数据集上表现优异，但在十亿级scan-body配对数据下性能是否饱和尚不清楚
Chamfer后优化的双刃剑：后优化在紧致衣物(CAPE)上有益，但在宽松衣物(4D-Dress)上反而使结果变差（body膨胀到衣物外表面）

评分 ⭐⭐⭐⭐¶

创新性：⭐⭐⭐⭐⭐（向量式等变tightness是新颖且有效的设计，将两个正交思路优雅结合）
实验：⭐⭐⭐⭐⭐（全面的消融+挑战子集+one-shot实验+定性结果，结论有力）
写作：⭐⭐⭐⭐（结构清晰，术语定义准确，ETCH缩写巧妙）
实用性：⭐⭐⭐⭐（RTX 4090单卡训练4天，marker拟合5秒/样本，实际可部署）