ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness¶
会议: ICCV 2025
arXiv: 2503.10624
代码: https://boqian-li.github.io/ETCH
领域: 3D视觉 / 人体重建 / 穿衣人体拟合
关键词: Body Fitting, Clothed Humans, SE(3) Equivariance, Tightness Vector, SMPL, Point Cloud
一句话总结¶
提出ETCH框架,通过建模从衣物表面到体表的SE(3)等变紧密度向量(tightness vector),将穿衣人体的body fitting简化为tightness-aware的稀疏marker拟合任务,在CAPE和4D-Dress数据集上相比SOTA方法(含tightness-agnostic和tightness-aware方法)在宽松衣物上提升16.7%~69.5%的关节误差,形状精度平均提升49.9%。
研究背景与动机¶
问题定义¶
给定穿衣人体的3D点云,目标是拟合出其内部的SMPL参数化人体模型(姿态θ、形状β、平移t)。该任务在动作捕获、虚拟试穿、沉浸式传送等应用中至关重要。
现有方法的局限¶
优化方法(NICP等):依赖多阶段pipeline(多视角渲染→2D关键点→三角化→SMPL优化),对姿态初始化敏感,宽松衣物下2D关键点检测失败导致级联错误
Tightness-agnostic学习方法(ArtEq):通过关节级SE(3)等变性处理姿态泛化,但无法处理衣物偏离身体的情况(如裙子、膨胀外套),直接回归身体参数
Tightness-aware方法(IPNet/PTF):尝试分离衣物层,但使用标量tightness(UV map或双层占据场),在OOD姿态/形状上仍然困难
核心洞察¶
衣物虽然不严格遵循关节运动,但其从外表面到体表面的位移向量在局部近似满足SE(3)等变性——将"等变性"和"紧密度"结合,即可同时获得姿态泛化能力和衣物解耦能力。
方法详解¶
整体框架¶
ETCH分两阶段: 1. 等变紧密度向量预测:输入点云X → EPN网络提取SO(3)等变/不变特征 → 预测紧密度方向D(等变特征)、幅度B(不变特征)、标签L和置信度C(不变特征+Point Transformer) 2. Marker聚合与SMPL优化:沿紧密度向量将外表面点射向内体表面 → 按标签分组+置信度加权聚合为86个稀疏marker → Levenberg-Marquardt优化SMPL参数
关键设计1:等变紧密度向量¶
紧密度向量 \(\mathbf{v}_i = b_i \mathbf{d}_i\) 由方向和幅度两部分组成: - 方向预测(SE(3)等变):利用EPN的SO(3)等变特征 \(\mathbf{f}^{equiv} \in \mathbb{R}^{N \times 60 \times C}\),通过self-attention网络在旋转群维度上学习权重 \(w_{ij}\),加权组合60个离散旋转矩阵并通过SVD投影到SO(3),获得逐点旋转矩阵 \(\hat{\mathcal{R}}_i\),乘以单位向量得到方向 - 幅度预测(不变特征):对等变特征mean pooling得到不变特征 \(\mathbf{f}^{inv}\),通过Point Transformer捕获上下文信息后回归幅度值
关键设计2:Marker标签与置信度¶
- 标签L:86类分类任务,指示每个外表面点对应哪个body marker,使用Point Transformer + softmax
- 置信度C:通过Group Convolution和soft aggregation计算,基于geodesic距离的指数衰减定义GT置信度:\(c_i = \exp(-\lambda \times g(\mathbf{m}_k, \mathbf{y}_j; \mathcal{S}_Y))\)
关键设计3:稀疏Marker聚合¶
对每个marker \(k\),选取预测标签与之匹配的top-m个高置信度内点,进行加权聚合:
α进一步放大高置信度点的影响。最终对标记marker做SMPL参数优化(L-M算法)。
损失函数¶
多任务监督(非端到端训练): $\(\mathcal{L} = w_d \mathcal{L}_d + w_b \mathcal{L}_b + w_l \mathcal{L}_l + w_c \mathcal{L}_c\)$ - \(\mathcal{L}_d\):方向余弦损失 - \(\mathcal{L}_b\):幅度MSE损失 - \(\mathcal{L}_l\):标签交叉熵损失 - \(\mathcal{L}_c\):置信度MSE损失
实验关键数据¶
数据集¶
- CAPE:15个subject,紧致衣物,26K训练/1K验证帧,跨subject划分
- 4D-Dress:32个subject/64套装,宽松衣物+大动态,59K训练/1.9K验证帧,跨motion序列划分
主实验结果¶
| 方法 | 类型 | CAPE V2V↓ | CAPE MPJPE↓ | 4D-Dress V2V↓ | 4D-Dress MPJPE↓ |
|---|---|---|---|---|---|
| NICP | Agnostic | 1.726 | 1.343 | 4.754 | 3.654 |
| ArtEq | Agnostic | 2.200 | 1.557 | 2.328 | 1.657 |
| IPNet | Aware | 2.593 | 1.917 | 3.826 | 2.625 |
| PTF | Aware | 2.036 | 1.497 | 2.796 | 2.053 |
| ETCH | Aware | 1.647 | 0.922 | 1.939 | 1.116 |
关键发现:ETCH在所有数据集所有指标上全面领先。4D-Dress上MPJPE比ArtEq降低32.6%,比PTF降低45.6%。
消融实验¶
| 设置 | 紧密度 | 对应关系 | 方向特征 | CAPE V2V↓ | 4D-Dress V2V↓ |
|---|---|---|---|---|---|
| Ours(完整) | 向量 | 稀疏Marker | 等变 | 1.647 | 1.939 |
| Ours-A(无等变) | 向量 | 稀疏Marker | XYZ | 1.661 | 2.033 |
| Ours-C(稠密对应) | 向量 | 稠密 | 等变 | 1.909 | 2.285 |
| Ours-D(标量) | 标量 | 稠密 | 等变 | 1.777 | 2.410 |
| Ours-E(仅不变) | 向量 | 稀疏Marker | 不变 | 1.888 | 2.842 |
关键发现: 1. 稀疏marker vs 稠密对应:稀疏marker在CAPE/4D-Dress上V2V分别降低13.7%/15.1% 2. 等变特征在one-shot(~1%数据)设置下方向误差降低67.2%~89.8%,展现强OOD泛化 3. 向量tightness在宽松衣物(4D-Dress)上明显优于标量 4. 形状精度(β参数MAE)平均提升49.9%
挑战子集(4D-Dress)¶
| 挑战类型 | ETCH V2V↓ | 次优方法 V2V↓ | 提升 |
|---|---|---|---|
| 宽松衣物 | 2.276 | 3.264 (PTF) | 30.3% |
| 极端形状 | 1.831 | 2.137 (ArtEq) | 14.3% |
| 挑战姿态 | 1.992 | 2.420 (ArtEq) | 17.7% |
亮点与洞察¶
- 向量式tightness的创新性:不同于TightCap的标量UV map或IPNet的双层占据场,将tightness建模为从衣物到身体的位移向量,天然具备方向性,能正确指向内体表面
- 等变性+紧密度的互补:ArtEq的关节级等变性无法处理宽松衣物,标量tightness缺乏方向信息——ETCH的核心在于发现"cloth-to-body位移向量满足近似局部SE(3)等变性",两者互补
- 稀疏marker的投票机制:相比稠密对应的逐点优化,稀疏marker+置信度加权聚合形成投票策略,对outlier鲁棒
- 无需额外先验:不像IPNet/PTF/NICP需要VPoser姿态先验或形状正则化,ETCH仅用86个marker直接优化,且效果更好
- One-shot泛化能力出色:仅用~1%数据训练,等变特征仍能给出正确方向预测
局限性¶
- 部分输入失败:缺失点云区域无法捕获marker,导致拟合失败
- 细结构不支持:当前marker布局未覆盖手指和面部细节,扩展到SMPL-X需要统一框架处理多尺度感受野
- 可扩展性未知:在当前中等规模数据集上表现优异,但在十亿级scan-body配对数据下性能是否饱和尚不清楚
- Chamfer后优化的双刃剑:后优化在紧致衣物(CAPE)上有益,但在宽松衣物(4D-Dress)上反而使结果变差(body膨胀到衣物外表面)
相关工作与启发¶
- Registration vs Fitting的区分值得注意:registration关注匹配外表面,fitting关注对齐内体表面——宽松衣物下两者有本质差异
- 等变网络(VN/TFN/SE3-Transformer)在非刚性人体场景的应用仍有空间——ETCH展示了"近似局部等变"的实用性
- 合成数据或生成式3D人体可能是扩展训练数据的路径
评分 ⭐⭐⭐⭐¶
- 创新性:⭐⭐⭐⭐⭐(向量式等变tightness是新颖且有效的设计,将两个正交思路优雅结合)
- 实验:⭐⭐⭐⭐⭐(全面的消融+挑战子集+one-shot实验+定性结果,结论有力)
- 写作:⭐⭐⭐⭐(结构清晰,术语定义准确,ETCH缩写巧妙)
- 实用性:⭐⭐⭐⭐(RTX 4090单卡训练4天,marker拟合5秒/样本,实际可部署)
相关论文¶
- [ICCV 2025] PHD: Personalized 3D Human Body Fitting with Point Diffusion
- [ICCV 2025] TriDi: Trilateral Diffusion of 3D Humans, Objects, and Interactions
- [ICCV 2025] Event-Driven Storytelling with Multiple Lifelike Humans in a 3D Scene
- [ICCV 2025] GUAVA: Generalizable Upper Body 3D Gaussian Avatar
- [ICCV 2025] VolumetricSMPL: A Neural Volumetric Body Model for Efficient Interactions, Contacts, and Collisions