跳转至

CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals

会议: NeurIPS 2025
arXiv: 2509.04699
代码: 无
领域: 人体理解 / 手势识别
关键词: 肌电信号, EMG, 手势识别, 对比学习, 零样本分类, 跨模态对齐

一句话总结

提出 CPEP 框架,通过对比学习将低质量 EMG 信号表征与高质量手部姿态表征对齐,使 EMG 编码器获得姿态感知能力,首次实现从 EMG 信号零样本识别未见手势,分布内手势分类提升 21%、未见手势分类提升 72%。

研究背景与动机

  1. 领域现状:基于视觉的手势识别已非常成熟,但在可穿戴设备上受限于功耗和隐私。表面肌电信号 (sEMG) 低功耗、易集成,适合可穿戴实时手势预测。

  2. 现有痛点:(a) EMG 信号信噪比低、变异性大,传统自监督预训练效果不佳;(b) 监督方法(如 emg2pose 姿态回归)泛化能力差,无法识别未见手势或新用户;(c) 大规模 EMG 数据采集困难成本高。

  3. 核心矛盾:EMG 是"弱模态",单独学习难以产生高质量表征;手部姿态是"强模态",含丰富结构和语义信息。如何利用强模态先验提升弱模态表征?

  4. 本文要解决什么? 让 EMG 编码器习得"姿态感知"表征,在嵌入空间通过检索姿态实现零样本分类。

  5. 切入角度:借鉴 CLIP 跨模态对比预训练,但针对 EMG-姿态特殊性设计——预训练单模态编码器减少配对数据需求,冻结强模态编码器只训练弱模态。

  6. 核心idea一句话:用对比学习将 EMG 表征拉向配对姿态表征,无需任务特定训练即可零样本手势识别。

方法详解

整体框架

CPEP 分三阶段:(1) MAE 自监督预训练 EMG 和姿态编码器;(2) 对比预训练冻结姿态编码器,InfoNCE 对齐两模态 [CLS] 表征;(3) 下游评估通过线性探测或零样本最近邻检索。

关键设计

  1. 单模态编码器预训练 (MAE):
  2. 做什么:分别为 EMG 和姿态预训练 Transformer 编码器
  3. 核心思路:标准 MAE,沿时间分 patch,mask 比率 \(r=50\%\),仅编码未 mask token,解码器重建全序列。\(\mathcal{L}_{\text{MAE}} = \frac{1}{|\mathcal{M}|}\sum_{i\in\mathcal{M}} \|\psi(\phi(\{\mathbf{z}_j\}_{j\notin\mathcal{M}}))_i - \mathbf{z}_i\|_2^2\)
  4. 设计动机:先学好各自基本表征,减少对比阶段配对数据需求

  5. 对比姿态-EMG 预训练 (CPEP):

  6. 做什么:冻结姿态编码器 \(\mathcal{E}_p\),训练 EMG 编码器 + 投影头 \(h\)
  7. 核心思路:EMG 嵌入 \(u_i = h(\mathcal{E}_x(x_i))_{[\text{CLS}]}\),姿态嵌入 \(v_i = (\mathcal{E}_p(p_i))_{[\text{CLS}]}\)\(\ell_2\) 归一化后对称 InfoNCE:\(\mathcal{L}_{\text{CPEP}} = \frac{1}{2N}\sum_{i} [-\log\frac{\exp(s_{ii})}{\sum_j\exp(s_{ij})} - \log\frac{\exp(s_{ii})}{\sum_j\exp(s_{ji})}]\)\(s_{ij} = \tilde{u}_i^\top\tilde{v}_j / \tau\)
  8. 设计动机:冻结姿态编码器是关键——双方同时更新会破坏姿态表征质量(实验证实无法收敛)

  9. 零样本分类协议:

  10. 做什么:嵌入空间 k-最近邻投票
  11. 核心思路:预计算姿态嵌入,每个 EMG 查询检索 top-\(k\)\(k=10\))最近姿态,多数投票:\(\hat{y}_j = \text{mode}\{y(p) | p \in \mathcal{R}_j\}\)
  12. 设计动机:零样本能力验证 EMG 表征学会了姿态结构信息

损失函数 / 训练策略

三阶段训练:EMG/Pose-MAE 各 100 epoch -> CPEP 对比 100 epoch(batch=256, 可学习 \(\tau\) 初始 0.02)-> 线性探测。4x V100,训练约 4.5 小时/模型。

实验关键数据

主实验(手势分类准确率)

方法 LP 分布内 LP 未见 ZS 分布内 ZS 未见
emg2pose (基准) 0.647 0.312 - -
EMG-MAE ~0.55 ~0.30 - -
PoseT (监督) ~0.60 ~0.35 - -
CPEP 0.782 0.536 0.757 0.481
Pose-MAE (上界) ~0.85 ~0.65 - -

消融实验

配置 LP 分布内 ZS 分布内 LP 未见 ZS 未见
EMG encoder Frozen 0.372 0.344 0.326 0.298
EMG encoder RandInit 0.748 0.701 0.479 0.454
AvgPool 0.761 0.711 0.518 0.454
CPEP (full) 0.782 0.757 0.536 0.481

关键发现

  • MAE 预训练初始化至关重要:随机初始化收敛慢精度低,双编码器同时训练无法收敛
  • [CLS] 比 AvgPool 更好,全局上下文对手势识别更有效
  • 冻结 EMG 编码器效果极差(0.372 vs 0.782),必须微调
  • EMG patch 越长性能越差,需细粒度时序建模

亮点与洞察

  • 首个 EMG 零样本手势识别框架:零样本超过基准线性探测(0.481 vs 0.312 未见手势),对比预训练学到的表征有真正泛化能力
  • 强模态锚定弱模态范式可迁移到 IMU-视频对齐、EEG-行为对齐等场景

局限性 / 可改进方向

  • 仅 emg2pose 单一数据集验证,泛化到其他 EMG 采集设备和协议未知
  • 手势类别少(4+4 类),实际应用需要数十甚至上百种手势
  • 未与 SigLIP、CLAP 等进阶对比学习方法比较
  • Workshop 论文,实验规模有限,统计显著性未报告
  • 未探索在线适应或少样本微调场景
  • 对不同用户间 EMG 信号差异的鲁棒性分析不足

相关工作与启发

  • vs emg2pose: 监督姿态回归泛化有限;CPEP 对比对齐获得结构化嵌入支持零样本
  • vs CLIP: 借鉴跨模态对比思路但做了关键适配——预训练编码器减少数据需求、冻结强模态
  • vs NeuroPose/Vemg2pose: 这些基准模型也用了 Transformer 架构但以监督回归为目标,嵌入质量不足以支持检索式分类

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将 CLIP 式对比预训练应用于 EMG-姿态对齐实现零样本
  • 实验充分度: ⭐⭐⭐ Workshop 论文,单数据集,手势类别少
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述简洁
  • 价值: ⭐⭐⭐⭐ 开创 EMG 零样本手势识别新方向