Lifelong Domain Adaptive 3D Human Pose Estimation¶

会议: AAAI2026
arXiv: 2512.23860
代码: davidpengucf/lifelongpose
领域: video_understanding
关键词: 3D human pose estimation, lifelong domain adaptation, catastrophic forgetting, GAN, diffusion model

一句话总结¶

提出 lifelong domain adaptive 3D HPE 新任务，设计包含 pose-aware、temporal-aware 和 domain-aware 编码的 GAN 框架，利用 diffusion sampler 生成 domain-aware prior 缓解灾难性遗忘，在多个跨场景/跨数据集适应任务上显著超越现有方法。

研究背景与动机¶

3D Human Pose Estimation (3D HPE) 的 2D-to-3D lifting 范式依赖受控环境下标注的 3D 数据，泛化到 in-the-wild 场景时面临 domain shift 问题。现有 DA 方法的局限： - General DA：需要同时访问源域和目标域数据 - Source-free DA：假设目标域分布静态，允许所有目标数据联合训练 - 两者均忽略了目标姿态分布非平稳的现实问题（如自动驾驶中行人意图预测→车内安全监控的场景变化）

核心动机：提出 lifelong domain adaptive 3D HPE——源域预训练后依次适应多个目标域，每次只能访问当前目标域数据，不能回看源域或之前的目标域。需同时解决当前域适应和历史域知识保持两大挑战。

方法详解¶

整体框架¶

包含三个核心组件：3D pose generators、2D pose discriminator、2D-to-3D lifting pose estimator，采用 GAN 结构减小 domain shift。

3D Pose Generator¶

输入当前域估计的 3D pose，通过三个级联生成器 \(G = G_{BA} \circ G_{BL} \circ G_{RT}\)（bone angle / bone length / rotation-translation）生成增强 3D pose，包含三种编码： 1. Pose-aware encoding：除 joint coordinates 和 bone vectors 外，新增 6 个 body part segments（左右手、左右腿、躯干、扩展躯干），捕捉不相连关节间的关系 2. Temporal-aware encoding：多帧连续 3D pose 通过 temporal weighted convolutional network 生成加权单帧 pose 3. Domain-aware encoding：用 DDIM 训练的 2D pose diffusion sampler 在先前域 2D pose 上采样（仅 T/10 步），生成 domain-aware prior 替代随机噪声

优化过程¶

\(\mathcal{L}_{3D}\)：MSE + feedback loss，约束增强 3D pose 与预测 3D pose 的相似度
\(\mathcal{L}_{2D}\)：MSE + 归一化 L1，同时保持 scale 和对齐方向
\(\mathcal{L}_{dis}\)：Wasserstein GAN with gradient penalty，判别原始 2D pose 和增强 2D pose
EMA：\(\mathcal{P}_{j+1} = \eta \mathcal{P}_j + (1-\eta)\hat{\mathcal{P}}_j\)（\(\eta=0.99\)），平滑更新 pose estimator 以缓解遗忘

实验关键数据¶

跨场景适应 H3.6M: S1→S5→S6→S7→S8（MPJPE/PA-MPJPE）¶

方法	S5	S6	S7	S8	Avg
PoseDA-LL	51.5/44.9	51.9/44.5	46.2/39.5	40.9/28.6	47.6/39.4
Ours	48.7/42.5	48.6/40.8	42.3/36.9	40.0/27.4	44.9/36.9

跨数据集适应 H3.6M→3DHP（6 个 test set 平均）¶

方法	Avg MPJPE/PA-MPJPE
PoseDA-LL	80.7/54.5
Ours	75.3/50.7

多数据集适应（H3.6M→3DHP→3DPW）¶

方法	3DHP	3DPW	Avg
PoseDA-LL	88.9/62.1	87.6/49.4	88.3/55.8
Ours	75.3/51.1	81.7/45.6	78.5/48.4

消融实验证明：Domain-aware embedding (DE) 最关键（移除后 3DHP 上 MPJPE 退化 8.2mm）；EMA 对抗遗忘的作用也很大（移除后退化 5.9mm）。

亮点¶

首次将 lifelong DA 引入 3D HPE，形式化了非平稳目标域的序列适应问题
Diffusion sampler 作为 domain memory：用 DDIM 保留先前域 pose 分布，避免 GAN 的 mode collapse，且仅需 T/10 步采样即高效生成 prior
Part-aware 编码：6 个 body part segments 提升 pose 表示的全面性
所有 3 个实验设置中均一致超越 5 种对比方法

局限与展望¶

Diffusion sampler 在每个新域都需重新训练/更新，随域数增长开销可能增大
实验仅使用 16-keypoint body model 和 FC-based estimator（VideoPose3D），未验证 Transformer-based 架构
目标域间的适应顺序固定，未讨论顺序对最终性能的影响
未探索 online/streaming 设定，当前仍为 offline 批量适应

评分¶

新颖性: ⭐⭐⭐⭐ — 首次定义 lifelong DA for 3D HPE，diffusion sampler 作为域记忆的思路新颖
实验充分度: ⭐⭐⭐⭐ — 3 种适应设置 + 5 种基线 + 详尽消融，但仅在 pose 数据集上验证
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，方法描述详尽，图示质量高
价值: ⭐⭐⭐⭐ — 对非平稳环境下持续适应有实际意义，框架扩展性好