AJAHR: Amputated Joint Aware 3D Human Mesh Recovery¶

会议: ICCV 2025
arXiv: 2509.19939
代码: chojinie/AJAHR_official
领域: 3D视觉 / 人体重建
关键词: 人体网格恢复, 截肢者, SMPL, 合成数据集, 身体部位分类器

一句话总结¶

首个面向截肢者的3D人体网格恢复框架——通过合成100万+截肢者图像(A3D)、设计BPAC-Net截肢分类器区分截肢与遮挡、以及双Tokenizer切换策略分别编码截肢/正常位姿先验，在截肢者数据上大幅领先(ITW-amputee上MVE比TokenHMR低16.87)，非截肢者数据上也保持竞争力。

背景与动机¶

现有HMR(Human Mesh Recovery)方法全部假设标准人体结构，面对截肢者时模型"脑补"出不存在的肢体，既不准确也不包容。数据层面几乎空白——704个公开人体数据集中没有一个包含残障人士。技术层面截肢和遮挡在图像中高度相似：肢体缺失 vs 肢体被遮挡，模型无法区分。伦理层面采集真实截肢者数据成本极高且涉及隐私安全。

核心问题¶

如何在无真实截肢者训练数据的情况下，构建能同时准确处理截肢者和非截肢者的包容性人体网格恢复模型？子问题包括：(1)如何合成逼真的截肢者训练数据；(2)如何让模型区分截肢与遮挡；(3)如何为截肢者和非截肢者提供不同的位姿先验。

方法详解¶

整体框架¶

基于ViT的端到端架构：输入图像经ViT编码为embedding tokens，同时ViTPose提取2D关键点。BPAC-Net以RGB图+关键点热图为输入判断四肢截肢状态，其特征通过交叉注意力注入Transformer解码器引导位姿回归。解码器输出tokens经Bridge MLP映射到codebook维度，根据BPAC-Net预测的截肢状态选择对应codebook（含截肢先验 vs 纯标准先验），加权聚合得到SMPL位姿参数θ。另外三个分支分别回归全局旋转g、体型β和相机平移t，最终送入SMPL输出网格。

关键设计¶

A3D合成数据集: 核心思路是利用SMPL运动学树结构表示截肢——将截肢父关节及其所有子关节的位姿参数设为零矩阵，子关节顶点自然收敛到父关节位置。管线流程：从H36M/MPII/COCO提取SMPL参数 → ScoreHMR精化 → 选择截肢索引(覆盖手/前臂/全臂/踝/膝/全腿共12种类型) → BEDLAM纹理覆盖(2性别×7种族平衡分布) → SAM分割+LaMa修复原图背景 → 弱透视投影合成 → 质量筛选(SSIM>0.5+无残留人体检测)。产出100万+高质量标注图像，含SMPL参数、2D/3D关节、截肢区域标签。
BPAC-Net(身体部位截肢分类器): 将RGB图(H×W×3)与关键点热图(H×W×J)通道拼接，输入ResNet-32+CBAM提取空间/语义特征F。四个并行分类头ℋ_p分别预测四肢截肢状态(每肢4类：非截肢+3种截肢类型)。一个特征对齐头产出1280维全局向量直接作为Transformer解码器的交叉注意力输入，使位姿回归被截肢语义引导。三重作用：(1)调整损失权重加强截肢区域学习；(2)特征通过交叉注意力隐式辅助位姿估计；(3)推理时驱动截肢区域可视化(零化SMPL参数)。
双Tokenizer切换策略: 预训练两个VQ-VAE tokenizer——C_amp在AMASS+MOYO+A3D上训练(含截肢位姿先验)，C_non_amp仅在AMASS+MOYO上训练(标准先验)。Codebook大小256×2048，320个pose tokens。推理时BPAC-Net预测的4维二值向量ŷ决定选择哪个codebook：任一肢体被判定为截肢(‖ŷ‖₁>0)则用C_amp，否则用C_non_amp。消融实验证明双Tokenizer优于单一统一Tokenizer。

损失函数 / 训练策略¶

Tokenizer训练损失: L_total = 100·L_mix + 1.0·L_codebook + 1.0·L_commitment (VQ-VAE范式，L_mix含顶点/3D关节/位姿参数的ℓ₂距离)
AJAHR整体损失: L_overall = 10⁻³·L_θ + 5×10⁻⁴·L_β + 10⁻²·L_2D + 5×10⁻²·L_3D + 10⁻²·L_cls
截肢/非截肢数据均等采样(0.5:0.5)，避免数据不平衡
AdamW优化器, lr=5e-6, weight_decay=1e-4, batch=64, 150K iterations, 2×A100
部分微调策略：冻结大部分ViTPose backbone，仅更新最后4个block、patch embedding、pose embedding及Transformer decoder最后2个block
位姿参数使用6D连续旋转表示避免零矩阵导致的数值不稳定

实验关键数据¶

截肢者数据¶

数据集	指标	AJAHR(本文)	TokenHMR	提升
A3D	MPJPE↓	73.42	76.01	-2.59
A3D	MVE↓	73.19	74.70	-1.51
A3D	PA-MPJPE↓	49.42	49.94	-0.52
ITW-amputee	MPJPE↓	116.42	136.52	-20.10
ITW-amputee	MVE↓	129.25	146.12	-16.87
ITW-amputee	PA-MPJPE↓	77.18	91.00	-13.82

非截肢者数据¶

数据集	指标	AJAHR(本文)	TokenHMR	提升
3DPW	MPJPE↓	95.26	90.23	+5.03
3DPW	PA-MPJPE↓	44.94	47.17	-2.23
EMDB	MPJPE↓	112.83	113.26	-0.43
EMDB	PA-MPJPE↓	58.62	58.98	-0.36

BPAC-Net分类性能¶

数据集	Accuracy	Precision	Recall	F1
A3D(截肢)	0.881	0.756	0.922	0.820
3DOH50K(遮挡)	0.956	0.956	1.000	0.977

消融实验要点¶

关键点噪声鲁棒性: 25%噪声比下性能下降有限(3DPW PA-MPJPE: 44.94→45.08)，对ViTPose检测精度有一定容忍
多模态输入优于单模态: 图像+关键点联合 > 仅关键点(PA-MPJPE 44.98 vs 46.91) > 仅图像(PA-MPJPE 44.98 vs 59.54)
双Tokenizer > 单一Tokenizer: 统一模型(双Tokenizer切换)在所有数据集上优于仅截肢或仅非截肢的单Tokenizer
320 tokens最优: 160 tokens性能不足，640 tokens引入冗余和干扰
BPAC-Net需强baseline: 附加到HMR2.0/BEDLAM-CLIFF等弱baseline上无增益，需配合TokenHMR级别模型

亮点¶

首创问题定义: 第一个系统定义并解决截肢者3D人体网格恢复问题，从数据集到方法到评估形成完整闭环
SMPL零位姿截肢表示: 巧妙利用SMPL运动学树的层级结构，无需修改模型即可表示截肢，零矩阵使子关节顶点自然收敛
截肢 vs 遮挡消歧: BPAC-Net在3DOH50K遮挡数据上F1达0.977，证明能有效区分"肢体不在"与"肢体被挡"
合成数据管线设计成熟: 多种族平衡+质量筛选+背景多样化，LPIPS仅0.155，可迁移到其他数据稀缺场景

局限性 / 可改进方向¶

仅支持SMPL运动学树对应的关节级截肢(12种)，不支持手指缺失、非标准截断位置
A3D仅模拟真实截肢，未包含假肢/义肢佩戴场景
合成数据仍存在域差距(虽然LPIPS=0.155)，真实截肢者数据极少(ITW-amputee仅640张测试)
3DPW上MPJPE略高于TokenHMR(95.26 vs 90.23)，非截肢者场景存在轻微权衡
未来方向：扩展到假肢建模、非关节边界截肢、残奥运动分析、包容性AR/VR

与相关工作的对比¶

vs TokenHMR: AJAHR在其基础上增加BPAC-Net和双Tokenizer切换策略，在ITW-amputee上MVE大幅降低(146.12→129.25)，同时非截肢者PA-MPJPE也有提升
vs WheelPose: 关注轮椅使用者的2D姿态估计合成管线，本文首次处理3D网格恢复+截肢，维度更高
vs Zhou et al.: 用扩散模型将假肢重建为完整肢体以辅助姿态估计，回避了截肢建模核心问题；AJAHR直接在SMPL层面建模截肢
vs HMR2.0/BEDLAM-CLIFF: 在截肢者数据上差距更大(HMR2.0在ITW-amputee MVE=154.43 vs AJAHR=129.25)

启发与关联¶

包容性AI/公平AI是重要的社会计算方向，该工作示范了如何系统性地解决少数群体的技术偏见
合成数据管线(SMPL操控+纹理+背景合成+质量筛选)可迁移到任何缺乏标注数据的人体相关任务
SMPL模型的灵活运用值得学习——零位姿技巧无需改模型即可表达结构变异
双Tokenizer/多codebook策略可推广到其他需要条件化位姿先验的场景(如不同体型、不同运动类型)

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首创截肢者HMR问题定义，数据+方法+评估完整闭环
实验充分度: ⭐⭐⭐⭐ 截肢/非截肢/遮挡多场景+大量消融，但真实截肢者数据仍有限
写作质量: ⭐⭐⭐⭐ 问题动机阐述充分，方法描述清晰，结构完整
价值: ⭐⭐⭐⭐ 包容性AI的开创性工作，合成数据管线和双Tokenizer思路有通用启发