AJAHR: Amputated Joint Aware 3D Human Mesh Recovery¶
会议: ICCV 2025
arXiv: 2509.19939
代码: chojinie/AJAHR_official
领域: 3D视觉 / 人体重建
关键词: 人体网格恢复, 截肢者, SMPL, 合成数据集, 身体部位分类器
一句话总结¶
首个面向截肢者的3D人体网格恢复框架——通过合成100万+截肢者图像(A3D)、设计BPAC-Net截肢分类器区分截肢与遮挡、以及双Tokenizer切换策略分别编码截肢/正常位姿先验,在截肢者数据上大幅领先(ITW-amputee上MVE比TokenHMR低16.87),非截肢者数据上也保持竞争力。
背景与动机¶
现有HMR(Human Mesh Recovery)方法全部假设标准人体结构,面对截肢者时模型"脑补"出不存在的肢体,既不准确也不包容。数据层面几乎空白——704个公开人体数据集中没有一个包含残障人士。技术层面截肢和遮挡在图像中高度相似:肢体缺失 vs 肢体被遮挡,模型无法区分。伦理层面采集真实截肢者数据成本极高且涉及隐私安全。
核心问题¶
如何在无真实截肢者训练数据的情况下,构建能同时准确处理截肢者和非截肢者的包容性人体网格恢复模型?子问题包括:(1)如何合成逼真的截肢者训练数据;(2)如何让模型区分截肢与遮挡;(3)如何为截肢者和非截肢者提供不同的位姿先验。
方法详解¶
整体框架¶
基于ViT的端到端架构:输入图像经ViT编码为embedding tokens,同时ViTPose提取2D关键点。BPAC-Net以RGB图+关键点热图为输入判断四肢截肢状态,其特征通过交叉注意力注入Transformer解码器引导位姿回归。解码器输出tokens经Bridge MLP映射到codebook维度,根据BPAC-Net预测的截肢状态选择对应codebook(含截肢先验 vs 纯标准先验),加权聚合得到SMPL位姿参数θ。另外三个分支分别回归全局旋转g、体型β和相机平移t,最终送入SMPL输出网格。
关键设计¶
- A3D合成数据集: 核心思路是利用SMPL运动学树结构表示截肢——将截肢父关节及其所有子关节的位姿参数设为零矩阵,子关节顶点自然收敛到父关节位置。管线流程:从H36M/MPII/COCO提取SMPL参数 → ScoreHMR精化 → 选择截肢索引(覆盖手/前臂/全臂/踝/膝/全腿共12种类型) → BEDLAM纹理覆盖(2性别×7种族平衡分布) → SAM分割+LaMa修复原图背景 → 弱透视投影合成 → 质量筛选(SSIM>0.5+无残留人体检测)。产出100万+高质量标注图像,含SMPL参数、2D/3D关节、截肢区域标签。
- BPAC-Net(身体部位截肢分类器): 将RGB图(H×W×3)与关键点热图(H×W×J)通道拼接,输入ResNet-32+CBAM提取空间/语义特征F。四个并行分类头ℋ_p分别预测四肢截肢状态(每肢4类:非截肢+3种截肢类型)。一个特征对齐头产出1280维全局向量直接作为Transformer解码器的交叉注意力输入,使位姿回归被截肢语义引导。三重作用:(1)调整损失权重加强截肢区域学习;(2)特征通过交叉注意力隐式辅助位姿估计;(3)推理时驱动截肢区域可视化(零化SMPL参数)。
- 双Tokenizer切换策略: 预训练两个VQ-VAE tokenizer——C_amp在AMASS+MOYO+A3D上训练(含截肢位姿先验),C_non_amp仅在AMASS+MOYO上训练(标准先验)。Codebook大小256×2048,320个pose tokens。推理时BPAC-Net预测的4维二值向量ŷ决定选择哪个codebook:任一肢体被判定为截肢(‖ŷ‖₁>0)则用C_amp,否则用C_non_amp。消融实验证明双Tokenizer优于单一统一Tokenizer。
损失函数 / 训练策略¶
- Tokenizer训练损失: L_total = 100·L_mix + 1.0·L_codebook + 1.0·L_commitment (VQ-VAE范式,L_mix含顶点/3D关节/位姿参数的ℓ₂距离)
- AJAHR整体损失: L_overall = 10⁻³·L_θ + 5×10⁻⁴·L_β + 10⁻²·L_2D + 5×10⁻²·L_3D + 10⁻²·L_cls
- 截肢/非截肢数据均等采样(0.5:0.5),避免数据不平衡
- AdamW优化器, lr=5e-6, weight_decay=1e-4, batch=64, 150K iterations, 2×A100
- 部分微调策略:冻结大部分ViTPose backbone,仅更新最后4个block、patch embedding、pose embedding及Transformer decoder最后2个block
- 位姿参数使用6D连续旋转表示避免零矩阵导致的数值不稳定
实验关键数据¶
截肢者数据¶
| 数据集 | 指标 | AJAHR(本文) | TokenHMR | 提升 |
|---|---|---|---|---|
| A3D | MPJPE↓ | 73.42 | 76.01 | -2.59 |
| A3D | MVE↓ | 73.19 | 74.70 | -1.51 |
| A3D | PA-MPJPE↓ | 49.42 | 49.94 | -0.52 |
| ITW-amputee | MPJPE↓ | 116.42 | 136.52 | -20.10 |
| ITW-amputee | MVE↓ | 129.25 | 146.12 | -16.87 |
| ITW-amputee | PA-MPJPE↓ | 77.18 | 91.00 | -13.82 |
非截肢者数据¶
| 数据集 | 指标 | AJAHR(本文) | TokenHMR | 提升 |
|---|---|---|---|---|
| 3DPW | MPJPE↓ | 95.26 | 90.23 | +5.03 |
| 3DPW | PA-MPJPE↓ | 44.94 | 47.17 | -2.23 |
| EMDB | MPJPE↓ | 112.83 | 113.26 | -0.43 |
| EMDB | PA-MPJPE↓ | 58.62 | 58.98 | -0.36 |
BPAC-Net分类性能¶
| 数据集 | Accuracy | Precision | Recall | F1 |
|---|---|---|---|---|
| A3D(截肢) | 0.881 | 0.756 | 0.922 | 0.820 |
| 3DOH50K(遮挡) | 0.956 | 0.956 | 1.000 | 0.977 |
消融实验要点¶
- 关键点噪声鲁棒性: 25%噪声比下性能下降有限(3DPW PA-MPJPE: 44.94→45.08),对ViTPose检测精度有一定容忍
- 多模态输入优于单模态: 图像+关键点联合 > 仅关键点(PA-MPJPE 44.98 vs 46.91) > 仅图像(PA-MPJPE 44.98 vs 59.54)
- 双Tokenizer > 单一Tokenizer: 统一模型(双Tokenizer切换)在所有数据集上优于仅截肢或仅非截肢的单Tokenizer
- 320 tokens最优: 160 tokens性能不足,640 tokens引入冗余和干扰
- BPAC-Net需强baseline: 附加到HMR2.0/BEDLAM-CLIFF等弱baseline上无增益,需配合TokenHMR级别模型
亮点¶
- 首创问题定义: 第一个系统定义并解决截肢者3D人体网格恢复问题,从数据集到方法到评估形成完整闭环
- SMPL零位姿截肢表示: 巧妙利用SMPL运动学树的层级结构,无需修改模型即可表示截肢,零矩阵使子关节顶点自然收敛
- 截肢 vs 遮挡消歧: BPAC-Net在3DOH50K遮挡数据上F1达0.977,证明能有效区分"肢体不在"与"肢体被挡"
- 合成数据管线设计成熟: 多种族平衡+质量筛选+背景多样化,LPIPS仅0.155,可迁移到其他数据稀缺场景
局限性 / 可改进方向¶
- 仅支持SMPL运动学树对应的关节级截肢(12种),不支持手指缺失、非标准截断位置
- A3D仅模拟真实截肢,未包含假肢/义肢佩戴场景
- 合成数据仍存在域差距(虽然LPIPS=0.155),真实截肢者数据极少(ITW-amputee仅640张测试)
- 3DPW上MPJPE略高于TokenHMR(95.26 vs 90.23),非截肢者场景存在轻微权衡
- 未来方向:扩展到假肢建模、非关节边界截肢、残奥运动分析、包容性AR/VR
与相关工作的对比¶
- vs TokenHMR: AJAHR在其基础上增加BPAC-Net和双Tokenizer切换策略,在ITW-amputee上MVE大幅降低(146.12→129.25),同时非截肢者PA-MPJPE也有提升
- vs WheelPose: 关注轮椅使用者的2D姿态估计合成管线,本文首次处理3D网格恢复+截肢,维度更高
- vs Zhou et al.: 用扩散模型将假肢重建为完整肢体以辅助姿态估计,回避了截肢建模核心问题;AJAHR直接在SMPL层面建模截肢
- vs HMR2.0/BEDLAM-CLIFF: 在截肢者数据上差距更大(HMR2.0在ITW-amputee MVE=154.43 vs AJAHR=129.25)
启发与关联¶
- 包容性AI/公平AI是重要的社会计算方向,该工作示范了如何系统性地解决少数群体的技术偏见
- 合成数据管线(SMPL操控+纹理+背景合成+质量筛选)可迁移到任何缺乏标注数据的人体相关任务
- SMPL模型的灵活运用值得学习——零位姿技巧无需改模型即可表达结构变异
- 双Tokenizer/多codebook策略可推广到其他需要条件化位姿先验的场景(如不同体型、不同运动类型)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首创截肢者HMR问题定义,数据+方法+评估完整闭环
- 实验充分度: ⭐⭐⭐⭐ 截肢/非截肢/遮挡多场景+大量消融,但真实截肢者数据仍有限
- 写作质量: ⭐⭐⭐⭐ 问题动机阐述充分,方法描述清晰,结构完整
- 价值: ⭐⭐⭐⭐ 包容性AI的开创性工作,合成数据管线和双Tokenizer思路有通用启发