CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals¶

会议: NeurIPS 2025
arXiv: 2509.04699
代码: 无
领域: 人体理解 / 手势识别
关键词: 肌电信号, EMG, 手势识别, 对比学习, 零样本分类, 跨模态对齐

一句话总结¶

提出 CPEP 框架，通过对比学习将低质量 EMG 信号表征与高质量手部姿态表征对齐，使 EMG 编码器获得姿态感知能力，首次实现从 EMG 信号零样本识别未见手势，分布内手势分类提升 21%、未见手势分类提升 72%。

领域现状：基于视觉的手势识别已非常成熟，但在可穿戴设备上受限于功耗和隐私。表面肌电信号 (sEMG) 低功耗、易集成，适合可穿戴实时手势预测。
现有痛点：(a) EMG 信号信噪比低、变异性大，传统自监督预训练效果不佳；(b) 监督方法（如 emg2pose 姿态回归）泛化能力差，无法识别未见手势或新用户；(c) 大规模 EMG 数据采集困难成本高。
核心矛盾：EMG 是"弱模态"，单独学习难以产生高质量表征；手部姿态是"强模态"，含丰富结构和语义信息。如何利用强模态先验提升弱模态表征？
本文要解决什么？ 让 EMG 编码器习得"姿态感知"表征，在嵌入空间通过检索姿态实现零样本分类。
切入角度：借鉴 CLIP 跨模态对比预训练，但针对 EMG-姿态特殊性设计——预训练单模态编码器减少配对数据需求，冻结强模态编码器只训练弱模态。
核心idea一句话：用对比学习将 EMG 表征拉向配对姿态表征，无需任务特定训练即可零样本手势识别。

CPEP 分三阶段：(1) MAE 自监督预训练 EMG 和姿态编码器；(2) 对比预训练冻结姿态编码器，InfoNCE 对齐两模态 [CLS] 表征；(3) 下游评估通过线性探测或零样本最近邻检索。

单模态编码器预训练 (MAE):
做什么：分别为 EMG 和姿态预训练 Transformer 编码器
核心思路：标准 MAE，沿时间分 patch，mask 比率 \(r=50\%\)，仅编码未 mask token，解码器重建全序列。\(\mathcal{L}_{\text{MAE}} = \frac{1}{|\mathcal{M}|}\sum_{i\in\mathcal{M}} \|\psi(\phi(\{\mathbf{z}_j\}_{j\notin\mathcal{M}}))_i - \mathbf{z}_i\|_2^2\)
设计动机：先学好各自基本表征，减少对比阶段配对数据需求
对比姿态-EMG 预训练 (CPEP):
做什么：冻结姿态编码器 \(\mathcal{E}_p\)，训练 EMG 编码器 + 投影头 \(h\)
核心思路：EMG 嵌入 \(u_i = h(\mathcal{E}_x(x_i))_{[\text{CLS}]}\)，姿态嵌入 \(v_i = (\mathcal{E}_p(p_i))_{[\text{CLS}]}\)，\(\ell_2\) 归一化后对称 InfoNCE：\(\mathcal{L}_{\text{CPEP}} = \frac{1}{2N}\sum_{i} [-\log\frac{\exp(s_{ii})}{\sum_j\exp(s_{ij})} - \log\frac{\exp(s_{ii})}{\sum_j\exp(s_{ji})}]\)，\(s_{ij} = \tilde{u}_i^\top\tilde{v}_j / \tau\)
设计动机：冻结姿态编码器是关键——双方同时更新会破坏姿态表征质量（实验证实无法收敛）
零样本分类协议:
做什么：嵌入空间 k-最近邻投票
核心思路：预计算姿态嵌入，每个 EMG 查询检索 top-\(k\)（\(k=10\)）最近姿态，多数投票：\(\hat{y}_j = \text{mode}\{y(p) | p \in \mathcal{R}_j\}\)
设计动机：零样本能力验证 EMG 表征学会了姿态结构信息

三阶段训练：EMG/Pose-MAE 各 100 epoch -> CPEP 对比 100 epoch（batch=256, 可学习 \(\tau\) 初始 0.02）-> 线性探测。4x V100，训练约 4.5 小时/模型。

方法	LP 分布内	LP 未见	ZS 分布内	ZS 未见
emg2pose (基准)	0.647	0.312	-	-
EMG-MAE	~0.55	~0.30	-	-
PoseT (监督)	~0.60	~0.35	-	-
CPEP	0.782	0.536	0.757	0.481
Pose-MAE (上界)	~0.85	~0.65	-	-

配置	LP 分布内	ZS 分布内	LP 未见	ZS 未见
EMG encoder Frozen	0.372	0.344	0.326	0.298
EMG encoder RandInit	0.748	0.701	0.479	0.454
AvgPool	0.761	0.711	0.518	0.454
CPEP (full)	0.782	0.757	0.536	0.481