Heterogeneous Skeleton-Based Action Representation Learning¶

会议: CVPR 2025
arXiv: 2506.03481
代码: 无
领域: 视频理解
关键词: 骨架动作识别, 异构数据, 统一表示学习, 语义运动编码, 自监督学习

一句话总结¶

首次研究人体骨架数据的异构性问题（不同关节数、不同坐标维度），提出通过 3D 姿态估计模块统一维度、骨架特定 prompt 统一拓扑、语义运动编码引入语义信息三大组件，结合自监督统一表示学习框架，在 NTU-60/120 和 PKU-MMD II 上取得显著提升。

研究背景与动机¶

骨架数据来源于不同传感器和算法，天然存在异构性：

Kinect V2 深度传感器：3D 坐标 × 25 个关节点（含丰富的手部关节）
RGB 视频估计：2D 坐标 × 17 个关节点（含更多面部关节）

现有骨架动作识别方法（GCN、Transformer 等）均假设骨架数据是同构的，为每种骨架独立训练模型。这带来两个问题：①无法利用异构骨架之间的互补信息（25-joint 的手部 vs 17-joint 的面部）；②模型缺乏跨数据集的迁移能力。

本文的核心动机是：能否设计一个统一模型，同时处理不同维度、不同拓扑的异构骨架，并利用其互补性提升动作识别性能？

方法详解¶

整体框架¶

框架包含两大模块： 1. 异构骨架处理（Heterogeneous Skeleton Processing）：将不同维度和拓扑的骨架转换为统一格式 2. 统一表示学习（Unified Representation Learning）：用共享的 Transformer backbone 从多种异构骨架中学习统一的动作表示

关键设计¶

3D 姿态估计模块:
- 功能：将 2D 17-joint 骨架提升为 3D 坐标，统一坐标维度
- 核心思路：首先通过线性插值为 17-joint 骨架补充 3 个脊柱关节：\(p_{spine} = (p_{left\_shoulder} + p_{right\_shoulder})/2\)，\(p_{base} = (p_{left\_hip} + p_{right\_hip})/2\)，\(p_{middle} = (p_{spine} + p_{base})/2\)。然后用 4 层 MLP 将 2D 坐标回归为 3D 坐标，训练损失为 \(\mathcal{L}_{rec} = \frac{1}{|\mathcal{B}|} \sum \|u_i^C - u_i^J\|_2^2\)（在共有关节上计算）
- 设计动机：3D 骨架包含更丰富的动作信息（深度维度），统一到 3D 空间后可与 25-joint 骨架进行有效融合。插值脊柱关节增加了 2D↔3D 的对应点，有利于回归训练
骨架特定 Prompt + 统一骨架:
- 功能：将不同关节数的骨架统一为 30 个关节点的标准格式
- 核心思路：25-joint 和 17-joint 骨架的关节并集共 30 个。对每种骨架，用可训练的 prompt 补全缺失关节：25-joint 骨架缺 5 个面部关节，添加 \(prompt_J \in \mathbb{R}^{5 \times 3}\)；17-joint 骨架缺 10 个手脚关节，添加 \(prompt_C \in \mathbb{R}^{10 \times 3}\)。最终得到统一骨架 \(u \in \mathbb{R}^{m \times t \times 30 \times 3}\)，关节按"面部(1-5) → 公共关节(6-20) → 手脚关节(21-30)"排序
- 设计动机：零填充是处理缺失关节的简单方案，但无法提供有意义的信息。可训练 prompt 允许模型学习合理的"虚拟关节"位置，既统一了拓扑又保留了骨架特异性
语义运动编码（Semantic Motion Encoding）:
- 功能：引入动作的语义信息，弥补坐标关节仅表示物理运动、缺乏语义的不足
- 核心思路：将每个关节在每个时间步的运动方向离散化为 7 个方向词（right/left/up/down/front/back/unmove），通过预训练语言模型（CLIP ViT-B/32 文本编码器）编码为高维特征 \(e \in \mathbb{R}^{7 \times l}\)，再通过特征降维模块映射到 1 维嵌入，构建与骨架同尺寸的语义运动编码：\(m_{t,j}^x = \tilde{e}_{left}\) if \(s_{t,j}^x - s_{t-1,j}^x < 0\)（其他方向类似）
- 设计动机：不同拓扑的骨架在语义层面是一致的（都表示人体），但坐标数据缺乏这种语义连接。通过语言模型编码运动方向的语义，为异构骨架提供了一个"共同的语义锚点"

损失函数 / 训练策略¶

总损失为 \(\mathcal{L} = \lambda \mathcal{L}_{con} + \mathcal{L}_{reg} + \mathcal{L}_{rec}\)：

特征一致性损失 \(\mathcal{L}_{con}\)：在骨架特定投影空间中，约束融合特征 \(Z'_i\) 与单模态特征 \(Z_i\) 的 MSE 一致性 + 不同模态特征间的 MSE 一致性
VC 正则化 \(\mathcal{L}_{reg}\)：VICREG 的方差-协方差正则化，防止表示坍缩
3D 姿态重建损失 \(\mathcal{L}_{rec}\)：共有关节的 3D 坐标回归 L2 损失

采用自监督预训练 + 线性探测（冻结 encoder + 训练线性分类器）的评估范式。Backbone 为双头 Transformer（空间 + 时间各一个，hidden=1024），2 块 RTX 4090 训练。

实验关键数据¶

主实验¶

骨架动作识别（线性探测）:

方法	模态	FLOPs(G)	NTU-60 x-sub	NTU-60 x-view	NTU-120 x-sub	NTU-120 x-set	PKU-MMD
3s-UmURL	J+M+B	5.22	84.4	91.4	75.9	77.2	54.3
USDRL	J+M+B	-	87.1	93.2	79.3	80.6	59.7
Ours	J+C+S	2.54	87.8	93.7	78.9	82.2	58.2

骨架动作检索 (NTU-60):

方法	模态	x-sub	x-view
UmURL	J+M+B	72.0	88.9
Ours (J+C+S)	J+C+S	72.7	90.9

消融实验¶

配置	PKU-MMD II	说明
w/o 3D pose estimation	55.8	仅用 2D 骨架
w/o semantic motion	57.9	用数值 (1/-1/0) 替代语义编码
w/o skeleton-specific prompt	57.2	用零填充替代可训练 prompt
完整模型	58.2	三个模块均有贡献

关键发现¶

异构骨架的互补性显著：J+C+S (87.8%) 大幅超越单一骨架 J (80.2%) 或 C (84.4%)
17-joint 骨架（C, 84.4%）单独使用时优于 25-joint 骨架（J, 80.2%），可能因面部关节提供了额外信息
语义运动编码（S）单独使用仅 70.1%，但作为辅助模态与骨架组合时效果显著
迁移学习实验中，从 NTU-60 迁移到 PKU-MMD II 达 64.3%，远超 UmURL 的 59.7%
在 FineGYM 2D 骨架数据集上通过迁移学习达 75.3%，超越多种 RGB 方法

亮点与洞察¶

问题定义新颖：首次定义并解决骨架数据的"异构性"问题，这在实际应用中非常常见但被忽视
Prompt 统一拓扑：借鉴 NLP 中 prompt learning 的思想处理缺失关节，比零填充更优雅
语义运动编码：将运动方向"文字化"后通过语言模型编码，巧妙建立了物理运动与语义的桥梁
自监督 + 异构：自监督范式天然适合异构数据（无需标签对齐），且习得的表示迁移性强
不同骨架对不同动作有偏好（25-joint→手部动作，17-joint→面部动作），统一模型能取长补短

局限与展望¶

目前仅支持最多 2 人的骨架数据，对多人场景适用性有限
仅验证了 25-joint 和 17-joint 两种典型骨架，更多异构类型（如 SMPL、手部骨架）尚未探索
3D 姿态估计模块用简单 MLP 实现，精度可能不如专用方法（如 MotionBERT）
语义运动编码仅用 7 个方向词，运动语义的表达粒度较粗

评分¶

新颖性: ⭐⭐⭐⭐ 异构骨架的问题定义和解决方案均有新意
实验充分度: ⭐⭐⭐⭐ 覆盖识别/检索/半监督/迁移四大任务，消融充分
写作质量: ⭐⭐⭐⭐ 结构清晰，图示直观，但部分公式可更简洁
价值: ⭐⭐⭐⭐ 为异构骨架处理提供了首个系统方案，实际部署价值高