Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition¶
会议: ECCV 2024
arXiv: 2410.20349
代码: GitHub (有)
领域: 图像生成
关键词: 幂等生成模型, 骨架动作识别, 自监督学习, 对比学习, 扩散模型
一句话总结¶
提出幂等生成模型(IGM),从理论上建立生成模型与最大熵编码(谱对比学习)的等价关系,通过在骨架数据的特征空间施加幂等约束,使生成模型的特征更紧凑、更适合识别任务,在 NTU 60 xsub 上将准确率从 84.6% 提升至 86.2%。
研究背景与动机¶
骨架数据以 3D 关节坐标表示人体运动,相比 RGB 视频具有紧凑、高效的优势,广泛用于动作识别任务。现有自监督预训练方法分为两大类:
生成式学习(如 MAE、MAMP):通过预测/重建被 mask 的骨架数据学习时空相关性,但保留了过多与识别无关的外观信息,与骨架数据"空间稀疏、时间一致"的天然特性矛盾
对比学习(如 AimCLR、CMD):通过数据增强构造正样本对,在嵌入空间维持一致性,但增强过程会丢失大量细粒度运动细节
这两种范式优势互补但此前研究通常分开探索。关键问题是:能否统一生成模型和对比学习的优势?
作者从信息论角度出发,发现了一条理论路径: - 生成模型等价于最大熵编码(Maximum Entropy Coding) - 在生成模型上施加幂等约束后,其损失等价于谱对比学习(Spectral Contrastive Learning) - 这为在生成框架内引入对比学习提供了理论基础
方法详解¶
整体框架¶
IGM 由三个核心组件构成:
- 编码器 \(f(\cdot)\):对骨架数据施加增强后提取条件特征 \(\mathbf{z}\)
- 生成器 \(g(\cdot)\):基于扩散模型的条件去噪生成器,以 \(\mathbf{z}\) 为条件重建骨架
- 适配器 \(h(\cdot)\):将编码器的高级语义特征投影并融合到生成器的特征空间中
训练使用两类损失:扩散噪声预测损失 + 幂等特征约束。推理时只需编码器 \(f(\cdot)\) 用于下游识别任务。
关键设计¶
1. 理论基础:生成模型 = 最大熵编码¶
自条件生成模型的重建损失 \(\mathcal{L} = H(\mathbf{x}|\mathbf{z})\) 本质上是在最大化互信息 \(I(\mathbf{z}; \mathbf{x})\)。由于编码过程是确定性的,\(H(\mathbf{z}|\mathbf{x}) \to 0\),所以最大化互信息等价于最大化特征空间的熵 \(H(\mathbf{z})\)。
通过有损编码长度(rate-distortion)作为连续随机变量熵的代理,并进行 Taylor 展开,可以证明生成模型主要在减小特征空间中数据间的相似度:
2. 幂等生成模型 = 谱对比学习¶
幂等性指重编码的稳定性:\(f(\hat{\mathbf{x}}) = \mathbf{z}\),即对生成数据再编码应得到相同特征。
幂等损失为 \(\mathcal{L}_{\text{ide}} = \|f(\hat{\mathbf{x}}) - \mathbf{z}\|^2 = 2 - 2f(\hat{\mathbf{x}})^Tf(\mathbf{x})\)
将幂等损失与熵最大化目标结合,可以推导出:
其中 \(\mathbf{A}\) 是由数据生成过程定义的邻接矩阵。这恰好是谱对比学习的损失形式!而且相比谱对比学习,IGM 还额外优化了高阶残差项 \(\mathbf{R}\)。
3. 与 MAE 的关系¶
MAE 通过随机 mask 过程 \(M(\cdot)\) 隐式最大化同一数据不同 mask 样本间的特征相似性,但变换后的数据可能偏离真实分布。而幂等生成模型通过生成过程 \(G(\cdot)\) 实现类似目标,生成的数据更接近真实分布。
4. 下游任务误差界¶
根据谱对比学习理论,下游线性评估的错误率有界:
其中 \(\alpha\) 是聚类纯度相关项。这意味着需要增加生成数据的多样性(减小邻接矩阵的小奇异值),同时保持运动语义(保持聚类纯度)。扩散模型的噪声采样过程天然提供了这种多样性。
5. 流形解耦特征融合模块(Manifold Decoupled Feature Fusion)¶
识别任务关注高频运动细节,而生成任务主要优化主成分空间(低频信息),两者在不同特征子空间操作。适配器通过以下高频提取实现解耦:
这等价于对比学习均匀性损失的梯度更新,过滤掉序列中的均值等低频信息,保留对识别更重要的语义信息。然后通过 Adaptive LayerNorm(AdaLN)将高频条件注入生成器。
损失函数 / 训练策略¶
总损失包含两个部分:
1. 噪声预测损失:
2. 幂等约束(双重约束):
(a) 特征幂等约束 — 确保生成数据再编码的特征与原始特征一致:
其中 \(\mathbf{x}_0\) 是通过一步去噪估计得到的生成数据。由于生成数据可能含噪,额外输入噪声特征和时间步作为辅助信息。
(b) 分布幂等约束 — 确保生成数据的特征流形结构与原始数据一致:
其中 \(\mathcal{P}(\mathbf{x}) = f(\mathbf{x})^Tf(\mathbf{X})\) 表示特征间的相似度结构。这不仅连接同一数据的不同生成样本,还连接具有相似特征的不同数据,构建更紧致的聚类。
实验关键数据¶
主实验¶
NTU RGB+D 数据集上与无监督方法的对比:
| 方法 | 架构 | NTU 60 xview | NTU 60 xsub | NTU 120 xset | NTU 120 xsub |
|---|---|---|---|---|---|
| 3s-AimCLR(对比) | GCN | 83.4 | 77.8 | 66.7 | 67.9 |
| 3s-CMD(对比) | GRU | 90.9 | 84.1 | 76.1 | 74.7 |
| MAMP(生成) | Transformer | 89.1 | 84.9 | 79.1 | 78.6 |
| PCM3(混合) | GRU | 90.4 | 83.9 | 77.5 | 76.3 |
| IGM(本文) | Transformer | 91.2 | 86.2 | 81.4 | 80.0 |
在所有四个评测协议上均取得最优,NTU 60 xsub 上从之前最佳 84.9% 提升到 86.2%(+1.3%),NTU 120 xsub 从 78.6% 提升到 80.0%(+1.4%)。
消融实验¶
KNN 评估(NTU 60 数据集):
| 方法 | xview | xsub |
|---|---|---|
| IGM w/o \(\mathcal{L}_{\text{ide}}\) | 67.2 | 64.7 |
| IGM w/ \(\mathcal{L}_{\text{ide\_feat}}\) | 70.7 | 68.4 |
| IGM w/ \(\mathcal{L}_{\text{ide\_dist}}\) | 72.1 | 69.0 |
| IGM(完整) | 72.6 | 69.3 |
关键发现¶
- 幂等约束至关重要:去掉幂等约束后 KNN xsub 从 69.3 降到 64.7(-4.6%),验证了理论分析的正确性
- 分布幂等优于特征幂等:分布约束(69.0)比特征约束(68.4)更有效,因为它捕获了更丰富的结构信息
- 两种幂等约束互补:同时使用达到最佳效果(69.3),说明特征级和分布级约束关注不同层面的一致性
- IGM 在零样本适应场景中表现出色:在之前不可识别的场景中也能取得可观结果
- 统一框架优于单独范式:在所有数据集上超越了纯对比学习和纯生成式方法
亮点与洞察¶
- 理论贡献突出:首次严格证明了生成模型(带幂等约束)与谱对比学习的等价性,为两个领域的统一提供了理论基础
- 巧妙利用扩散模型的噪声采样:解决了自条件生成中多样性不足的矛盾——普通生成过程受限于与原始数据的距离约束导致多样性有限,而扩散模型的噪声采样天然提供多样性
- 流形解耦设计:通过高通滤波提取对识别重要的高频信息,避免了生成模型特征偏向主成分空间的维度坍缩问题
- 理论到实践的完整链条:从信息论分析出发,推导出幂等约束的必要性,再设计具体的特征和分布级约束
局限与展望¶
- 仅针对骨架模态:虽然理论框架通用,但实验仅在骨架数据上验证,对 RGB 视频等其他模态的效果未知
- 扩散采样的计算开销:训练阶段需要扩散过程生成多样化数据,增加了训练成本
- NTU 数据集局限:主要在 NTU 和 PKUMMD 上评估,缺少更大规模数据集的验证
- 高阶残差项 \(\mathbf{R}\) 的理论贡献在实验中未被明确量化
- 可探索将此框架推广到其他自监督学习场景(如视频理解、点云分析)
相关工作与启发¶
- MAE / MAMP:生成式预训练的代表,IGM 在此基础上引入幂等约束弥补识别能力不足
- MCR²(最大率降维编码):提供了有损编码作为熵代理的理论工具
- 谱对比学习:IGM 证明了幂等生成模型与之等价,统一了两个看似不同的范式
- 启发:在其他模态的自监督学习中(如图像、视频),也可以考虑在生成模型上施加幂等约束来提升识别性能
评分¶
- 创新性: ★★★★★ — 理论贡献出色,建立了生成模型与对比学习的等价桥梁
- 实验充分度: ★★★★☆ — 消融详尽但数据集范围有限
- 写作质量: ★★★★☆ — 理论推导清晰但部分符号较密集
- 实用价值: ★★★★☆ — 在骨架动作识别领域有直接应用价值
相关论文¶
- [ICCV 2025] Bridging the Skeleton-Text Modality Gap: Diffusion-Powered Modality Alignment for Zero-shot Skeleton-based Action Recognition
- [ECCV 2024] LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning
- [ECCV 2024] MacDiff: Unified Skeleton Modeling with Masked Conditional Diffusion
- [ECCV 2024] SAIR: Learning Semantic-aware Implicit Representation
- [ECCV 2024] Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers