跳转至

Heterogeneous Skeleton-Based Action Representation Learning

会议: CVPR 2025
arXiv: 2506.03481
代码: 无
领域: 视频理解
关键词: 骨架动作识别, 异构数据, 统一表示学习, 语义运动编码, 自监督学习

一句话总结

首次研究人体骨架数据的异构性问题(不同关节数、不同坐标维度),提出通过 3D 姿态估计模块统一维度、骨架特定 prompt 统一拓扑、语义运动编码引入语义信息三大组件,结合自监督统一表示学习框架,在 NTU-60/120 和 PKU-MMD II 上取得显著提升。

研究背景与动机

骨架数据来源于不同传感器和算法,天然存在异构性

  • Kinect V2 深度传感器:3D 坐标 × 25 个关节点(含丰富的手部关节)
  • RGB 视频估计:2D 坐标 × 17 个关节点(含更多面部关节)

现有骨架动作识别方法(GCN、Transformer 等)均假设骨架数据是同构的,为每种骨架独立训练模型。这带来两个问题:①无法利用异构骨架之间的互补信息(25-joint 的手部 vs 17-joint 的面部);②模型缺乏跨数据集的迁移能力。

本文的核心动机是:能否设计一个统一模型,同时处理不同维度、不同拓扑的异构骨架,并利用其互补性提升动作识别性能?

方法详解

整体框架

框架包含两大模块: 1. 异构骨架处理(Heterogeneous Skeleton Processing):将不同维度和拓扑的骨架转换为统一格式 2. 统一表示学习(Unified Representation Learning):用共享的 Transformer backbone 从多种异构骨架中学习统一的动作表示

关键设计

  1. 3D 姿态估计模块:

    • 功能:将 2D 17-joint 骨架提升为 3D 坐标,统一坐标维度
    • 核心思路:首先通过线性插值为 17-joint 骨架补充 3 个脊柱关节:\(p_{spine} = (p_{left\_shoulder} + p_{right\_shoulder})/2\)\(p_{base} = (p_{left\_hip} + p_{right\_hip})/2\)\(p_{middle} = (p_{spine} + p_{base})/2\)。然后用 4 层 MLP 将 2D 坐标回归为 3D 坐标,训练损失为 \(\mathcal{L}_{rec} = \frac{1}{|\mathcal{B}|} \sum \|u_i^C - u_i^J\|_2^2\)(在共有关节上计算)
    • 设计动机:3D 骨架包含更丰富的动作信息(深度维度),统一到 3D 空间后可与 25-joint 骨架进行有效融合。插值脊柱关节增加了 2D↔3D 的对应点,有利于回归训练
  2. 骨架特定 Prompt + 统一骨架:

    • 功能:将不同关节数的骨架统一为 30 个关节点的标准格式
    • 核心思路:25-joint 和 17-joint 骨架的关节并集共 30 个。对每种骨架,用可训练的 prompt 补全缺失关节:25-joint 骨架缺 5 个面部关节,添加 \(prompt_J \in \mathbb{R}^{5 \times 3}\);17-joint 骨架缺 10 个手脚关节,添加 \(prompt_C \in \mathbb{R}^{10 \times 3}\)。最终得到统一骨架 \(u \in \mathbb{R}^{m \times t \times 30 \times 3}\),关节按"面部(1-5) → 公共关节(6-20) → 手脚关节(21-30)"排序
    • 设计动机:零填充是处理缺失关节的简单方案,但无法提供有意义的信息。可训练 prompt 允许模型学习合理的"虚拟关节"位置,既统一了拓扑又保留了骨架特异性
  3. 语义运动编码(Semantic Motion Encoding):

    • 功能:引入动作的语义信息,弥补坐标关节仅表示物理运动、缺乏语义的不足
    • 核心思路:将每个关节在每个时间步的运动方向离散化为 7 个方向词(right/left/up/down/front/back/unmove),通过预训练语言模型(CLIP ViT-B/32 文本编码器)编码为高维特征 \(e \in \mathbb{R}^{7 \times l}\),再通过特征降维模块映射到 1 维嵌入,构建与骨架同尺寸的语义运动编码:\(m_{t,j}^x = \tilde{e}_{left}\) if \(s_{t,j}^x - s_{t-1,j}^x < 0\)(其他方向类似)
    • 设计动机:不同拓扑的骨架在语义层面是一致的(都表示人体),但坐标数据缺乏这种语义连接。通过语言模型编码运动方向的语义,为异构骨架提供了一个"共同的语义锚点"

损失函数 / 训练策略

总损失为 \(\mathcal{L} = \lambda \mathcal{L}_{con} + \mathcal{L}_{reg} + \mathcal{L}_{rec}\)

  • 特征一致性损失 \(\mathcal{L}_{con}\):在骨架特定投影空间中,约束融合特征 \(Z'_i\) 与单模态特征 \(Z_i\) 的 MSE 一致性 + 不同模态特征间的 MSE 一致性
  • VC 正则化 \(\mathcal{L}_{reg}\):VICREG 的方差-协方差正则化,防止表示坍缩
  • 3D 姿态重建损失 \(\mathcal{L}_{rec}\):共有关节的 3D 坐标回归 L2 损失

采用自监督预训练 + 线性探测(冻结 encoder + 训练线性分类器)的评估范式。Backbone 为双头 Transformer(空间 + 时间各一个,hidden=1024),2 块 RTX 4090 训练。

实验关键数据

主实验

骨架动作识别(线性探测):

方法 模态 FLOPs(G) NTU-60 x-sub NTU-60 x-view NTU-120 x-sub NTU-120 x-set PKU-MMD
3s-UmURL J+M+B 5.22 84.4 91.4 75.9 77.2 54.3
USDRL J+M+B - 87.1 93.2 79.3 80.6 59.7
Ours J+C+S 2.54 87.8 93.7 78.9 82.2 58.2

骨架动作检索 (NTU-60):

方法 模态 x-sub x-view
UmURL J+M+B 72.0 88.9
Ours (J+C+S) J+C+S 72.7 90.9

消融实验

配置 PKU-MMD II 说明
w/o 3D pose estimation 55.8 仅用 2D 骨架
w/o semantic motion 57.9 用数值 (1/-1/0) 替代语义编码
w/o skeleton-specific prompt 57.2 用零填充替代可训练 prompt
完整模型 58.2 三个模块均有贡献

关键发现

  • 异构骨架的互补性显著:J+C+S (87.8%) 大幅超越单一骨架 J (80.2%) 或 C (84.4%)
  • 17-joint 骨架(C, 84.4%)单独使用时优于 25-joint 骨架(J, 80.2%),可能因面部关节提供了额外信息
  • 语义运动编码(S)单独使用仅 70.1%,但作为辅助模态与骨架组合时效果显著
  • 迁移学习实验中,从 NTU-60 迁移到 PKU-MMD II 达 64.3%,远超 UmURL 的 59.7%
  • 在 FineGYM 2D 骨架数据集上通过迁移学习达 75.3%,超越多种 RGB 方法

亮点与洞察

  • 问题定义新颖:首次定义并解决骨架数据的"异构性"问题,这在实际应用中非常常见但被忽视
  • Prompt 统一拓扑:借鉴 NLP 中 prompt learning 的思想处理缺失关节,比零填充更优雅
  • 语义运动编码:将运动方向"文字化"后通过语言模型编码,巧妙建立了物理运动与语义的桥梁
  • 自监督 + 异构:自监督范式天然适合异构数据(无需标签对齐),且习得的表示迁移性强
  • 不同骨架对不同动作有偏好(25-joint→手部动作,17-joint→面部动作),统一模型能取长补短

局限与展望

  • 目前仅支持最多 2 人的骨架数据,对多人场景适用性有限
  • 仅验证了 25-joint 和 17-joint 两种典型骨架,更多异构类型(如 SMPL、手部骨架)尚未探索
  • 3D 姿态估计模块用简单 MLP 实现,精度可能不如专用方法(如 MotionBERT)
  • 语义运动编码仅用 7 个方向词,运动语义的表达粒度较粗

相关工作与启发

  • 与 UmURL 的关系:UmURL 使用 J+M+B(关节+运动+骨骼)三模态,本文用 J+C+S(25-joint + 17-joint + 语义),后者引入了真正的"异构"数据
  • 与 InfoGCN 等的关系:这些方法关注单一骨架的表示增强,本文关注不同骨架间的互补利用
  • 启发:(1)异构数据统一处理的思路可推广到其他模态(如不同分辨率的深度图、不同传感器的点云);(2)语言模型编码"运动词汇"的方法值得探索更丰富的描述

评分

  • 新颖性: ⭐⭐⭐⭐ 异构骨架的问题定义和解决方案均有新意
  • 实验充分度: ⭐⭐⭐⭐ 覆盖识别/检索/半监督/迁移四大任务,消融充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图示直观,但部分公式可更简洁
  • 价值: ⭐⭐⭐⭐ 为异构骨架处理提供了首个系统方案,实际部署价值高

相关论文