Lifelong Domain Adaptive 3D Human Pose Estimation¶
会议: AAAI2026
arXiv: 2512.23860
代码: davidpengucf/lifelongpose
领域: video_understanding
关键词: 3D human pose estimation, lifelong domain adaptation, catastrophic forgetting, GAN, diffusion model
一句话总结¶
提出 lifelong domain adaptive 3D HPE 新任务,设计包含 pose-aware、temporal-aware 和 domain-aware 编码的 GAN 框架,利用 diffusion sampler 生成 domain-aware prior 缓解灾难性遗忘,在多个跨场景/跨数据集适应任务上显著超越现有方法。
研究背景与动机¶
3D Human Pose Estimation (3D HPE) 的 2D-to-3D lifting 范式依赖受控环境下标注的 3D 数据,泛化到 in-the-wild 场景时面临 domain shift 问题。现有 DA 方法的局限: - General DA:需要同时访问源域和目标域数据 - Source-free DA:假设目标域分布静态,允许所有目标数据联合训练 - 两者均忽略了目标姿态分布非平稳的现实问题(如自动驾驶中行人意图预测→车内安全监控的场景变化)
核心动机:提出 lifelong domain adaptive 3D HPE——源域预训练后依次适应多个目标域,每次只能访问当前目标域数据,不能回看源域或之前的目标域。需同时解决当前域适应和历史域知识保持两大挑战。
方法详解¶
整体框架¶
包含三个核心组件:3D pose generators、2D pose discriminator、2D-to-3D lifting pose estimator,采用 GAN 结构减小 domain shift。
3D Pose Generator¶
输入当前域估计的 3D pose,通过三个级联生成器 \(G = G_{BA} \circ G_{BL} \circ G_{RT}\)(bone angle / bone length / rotation-translation)生成增强 3D pose,包含三种编码: 1. Pose-aware encoding:除 joint coordinates 和 bone vectors 外,新增 6 个 body part segments(左右手、左右腿、躯干、扩展躯干),捕捉不相连关节间的关系 2. Temporal-aware encoding:多帧连续 3D pose 通过 temporal weighted convolutional network 生成加权单帧 pose 3. Domain-aware encoding:用 DDIM 训练的 2D pose diffusion sampler 在先前域 2D pose 上采样(仅 T/10 步),生成 domain-aware prior 替代随机噪声
优化过程¶
- \(\mathcal{L}_{3D}\):MSE + feedback loss,约束增强 3D pose 与预测 3D pose 的相似度
- \(\mathcal{L}_{2D}\):MSE + 归一化 L1,同时保持 scale 和对齐方向
- \(\mathcal{L}_{dis}\):Wasserstein GAN with gradient penalty,判别原始 2D pose 和增强 2D pose
- EMA:\(\mathcal{P}_{j+1} = \eta \mathcal{P}_j + (1-\eta)\hat{\mathcal{P}}_j\)(\(\eta=0.99\)),平滑更新 pose estimator 以缓解遗忘
实验关键数据¶
跨场景适应 H3.6M: S1→S5→S6→S7→S8(MPJPE/PA-MPJPE)¶
| 方法 | S5 | S6 | S7 | S8 | Avg |
|---|---|---|---|---|---|
| PoseDA-LL | 51.5/44.9 | 51.9/44.5 | 46.2/39.5 | 40.9/28.6 | 47.6/39.4 |
| Ours | 48.7/42.5 | 48.6/40.8 | 42.3/36.9 | 40.0/27.4 | 44.9/36.9 |
跨数据集适应 H3.6M→3DHP(6 个 test set 平均)¶
| 方法 | Avg MPJPE/PA-MPJPE |
|---|---|
| PoseDA-LL | 80.7/54.5 |
| Ours | 75.3/50.7 |
多数据集适应(H3.6M→3DHP→3DPW)¶
| 方法 | 3DHP | 3DPW | Avg |
|---|---|---|---|
| PoseDA-LL | 88.9/62.1 | 87.6/49.4 | 88.3/55.8 |
| Ours | 75.3/51.1 | 81.7/45.6 | 78.5/48.4 |
消融实验证明:Domain-aware embedding (DE) 最关键(移除后 3DHP 上 MPJPE 退化 8.2mm);EMA 对抗遗忘的作用也很大(移除后退化 5.9mm)。
亮点¶
- 首次将 lifelong DA 引入 3D HPE,形式化了非平稳目标域的序列适应问题
- Diffusion sampler 作为 domain memory:用 DDIM 保留先前域 pose 分布,避免 GAN 的 mode collapse,且仅需 T/10 步采样即高效生成 prior
- Part-aware 编码:6 个 body part segments 提升 pose 表示的全面性
- 所有 3 个实验设置中均一致超越 5 种对比方法
局限与展望¶
- Diffusion sampler 在每个新域都需重新训练/更新,随域数增长开销可能增大
- 实验仅使用 16-keypoint body model 和 FC-based estimator(VideoPose3D),未验证 Transformer-based 架构
- 目标域间的适应顺序固定,未讨论顺序对最终性能的影响
- 未探索 online/streaming 设定,当前仍为 offline 批量适应
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次定义 lifelong DA for 3D HPE,diffusion sampler 作为域记忆的思路新颖
- 实验充分度: ⭐⭐⭐⭐ — 3 种适应设置 + 5 种基线 + 详尽消融,但仅在 pose 数据集上验证
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,方法描述详尽,图示质量高
- 价值: ⭐⭐⭐⭐ — 对非平稳环境下持续适应有实际意义,框架扩展性好
相关论文¶
- [ECCV 2024] Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects
- [AAAI 2026] StegaVAR: Privacy-Preserving Video Action Recognition via Steganographic Domain Analysis
- [ICCV 2025] UMDATrack: Unified Multi-Domain Adaptive Tracking Under Adverse Weather Conditions
- [AAAI 2026] Balancing Multimodal Domain Generalization via Gradient Modulation and Projection
- [CVPR 2026] EgoXtreme: A Dataset for Robust Object Pose Estimation in Egocentric Views under Extreme Conditions