跳转至

Lifelong Domain Adaptive 3D Human Pose Estimation

会议: AAAI2026
arXiv: 2512.23860
代码: davidpengucf/lifelongpose
领域: video_understanding
关键词: 3D human pose estimation, lifelong domain adaptation, catastrophic forgetting, GAN, diffusion model

一句话总结

提出 lifelong domain adaptive 3D HPE 新任务,设计包含 pose-aware、temporal-aware 和 domain-aware 编码的 GAN 框架,利用 diffusion sampler 生成 domain-aware prior 缓解灾难性遗忘,在多个跨场景/跨数据集适应任务上显著超越现有方法。

研究背景与动机

3D Human Pose Estimation (3D HPE) 的 2D-to-3D lifting 范式依赖受控环境下标注的 3D 数据,泛化到 in-the-wild 场景时面临 domain shift 问题。现有 DA 方法的局限: - General DA:需要同时访问源域和目标域数据 - Source-free DA:假设目标域分布静态,允许所有目标数据联合训练 - 两者均忽略了目标姿态分布非平稳的现实问题(如自动驾驶中行人意图预测→车内安全监控的场景变化)

核心动机:提出 lifelong domain adaptive 3D HPE——源域预训练后依次适应多个目标域,每次只能访问当前目标域数据,不能回看源域或之前的目标域。需同时解决当前域适应和历史域知识保持两大挑战。

方法详解

整体框架

包含三个核心组件:3D pose generators、2D pose discriminator、2D-to-3D lifting pose estimator,采用 GAN 结构减小 domain shift。

3D Pose Generator

输入当前域估计的 3D pose,通过三个级联生成器 \(G = G_{BA} \circ G_{BL} \circ G_{RT}\)(bone angle / bone length / rotation-translation)生成增强 3D pose,包含三种编码: 1. Pose-aware encoding:除 joint coordinates 和 bone vectors 外,新增 6 个 body part segments(左右手、左右腿、躯干、扩展躯干),捕捉不相连关节间的关系 2. Temporal-aware encoding:多帧连续 3D pose 通过 temporal weighted convolutional network 生成加权单帧 pose 3. Domain-aware encoding:用 DDIM 训练的 2D pose diffusion sampler 在先前域 2D pose 上采样(仅 T/10 步),生成 domain-aware prior 替代随机噪声

优化过程

  • \(\mathcal{L}_{3D}\):MSE + feedback loss,约束增强 3D pose 与预测 3D pose 的相似度
  • \(\mathcal{L}_{2D}\):MSE + 归一化 L1,同时保持 scale 和对齐方向
  • \(\mathcal{L}_{dis}\):Wasserstein GAN with gradient penalty,判别原始 2D pose 和增强 2D pose
  • EMA\(\mathcal{P}_{j+1} = \eta \mathcal{P}_j + (1-\eta)\hat{\mathcal{P}}_j\)\(\eta=0.99\)),平滑更新 pose estimator 以缓解遗忘

实验关键数据

跨场景适应 H3.6M: S1→S5→S6→S7→S8(MPJPE/PA-MPJPE)

方法 S5 S6 S7 S8 Avg
PoseDA-LL 51.5/44.9 51.9/44.5 46.2/39.5 40.9/28.6 47.6/39.4
Ours 48.7/42.5 48.6/40.8 42.3/36.9 40.0/27.4 44.9/36.9

跨数据集适应 H3.6M→3DHP(6 个 test set 平均)

方法 Avg MPJPE/PA-MPJPE
PoseDA-LL 80.7/54.5
Ours 75.3/50.7

多数据集适应(H3.6M→3DHP→3DPW)

方法 3DHP 3DPW Avg
PoseDA-LL 88.9/62.1 87.6/49.4 88.3/55.8
Ours 75.3/51.1 81.7/45.6 78.5/48.4

消融实验证明:Domain-aware embedding (DE) 最关键(移除后 3DHP 上 MPJPE 退化 8.2mm);EMA 对抗遗忘的作用也很大(移除后退化 5.9mm)。

亮点

  • 首次将 lifelong DA 引入 3D HPE,形式化了非平稳目标域的序列适应问题
  • Diffusion sampler 作为 domain memory:用 DDIM 保留先前域 pose 分布,避免 GAN 的 mode collapse,且仅需 T/10 步采样即高效生成 prior
  • Part-aware 编码:6 个 body part segments 提升 pose 表示的全面性
  • 所有 3 个实验设置中均一致超越 5 种对比方法

局限与展望

  • Diffusion sampler 在每个新域都需重新训练/更新,随域数增长开销可能增大
  • 实验仅使用 16-keypoint body model 和 FC-based estimator(VideoPose3D),未验证 Transformer-based 架构
  • 目标域间的适应顺序固定,未讨论顺序对最终性能的影响
  • 未探索 online/streaming 设定,当前仍为 offline 批量适应

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次定义 lifelong DA for 3D HPE,diffusion sampler 作为域记忆的思路新颖
  • 实验充分度: ⭐⭐⭐⭐ — 3 种适应设置 + 5 种基线 + 详尽消融,但仅在 pose 数据集上验证
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,方法描述详尽,图示质量高
  • 价值: ⭐⭐⭐⭐ — 对非平稳环境下持续适应有实际意义,框架扩展性好

相关论文