MoPFormer: Motion-Primitive Transformer for Wearable-Sensor Activity Recognition¶

会议: NeurIPS 2025
arXiv: 2505.20744
代码: 有
领域: 模型压缩 / 动作识别
关键词: 运动原语, Transformer, 可穿戴传感器, 活动识别, 时序分解

一句话总结¶

提出 MoPFormer，将可穿戴传感器信号分解为运动原语（motion primitives）序列，通过 Transformer 建模原语间的时序依赖关系，在多个 HAR 基准上超越 SOTA 并保持轻量化。

领域现状：可穿戴传感器的人体活动识别（HAR）广泛应用于健康监测、运动分析等，主流方法使用 CNN/RNN 直接处理原始信号。

现有痛点：(1) 原始信号中噪声大、采样率变化影响泛化；(2) CNN 难以捕捉长程时序依赖；(3) 标准 Transformer 对 HAR 信号的 token 化方式不合理。

核心矛盾：传感器信号的连续性 vs Transformer 需要离散 token 的输入格式。

切入角度：人体活动可以自然分解为运动原语（如"抬手"、"迈步"等基本运动单元），用原语作为 Transformer 的 token。

输入 IMU 信号 → 运动原语提取（学习型分段+编码）→ 原语序列 Transformer → 活动分类。

运动原语提取
- 功能：将连续传感器信号自动分解为离散原语序列
- 核心思路：学习型分段网络识别信号中的原语边界，编码器将每个分段映射为固定长度的原语嵌入
- 设计动机：原语是更自然、更稳定的表示单元——不受采样率变化影响
Primitive Transformer
- 功能：建模原语间的时序依赖
- 核心思路：标准 Transformer encoder，位置编码 + 多头自注意力 + 前馈层
- 设计动机：原语序列长度远短于原始信号（10-20 个原语 vs 数百个采样点），计算效率高
轻量化设计
- 功能：保持模型紧凑以适配边缘设备
- 核心思路：小维度嵌入（64-128）、浅层 Transformer（2-4 层）、参数共享
- 设计动机：可穿戴设备计算资源有限

分类交叉熵损失 + 原语分段辅助损失。端到端训练。

方法	UCI-HAR Acc↑	PAMAP2 F1↑	Opportunity F1↑	参数量↓
DeepConvLSTM	93.2%	89.5%	85.3%	2.1M
InceptionTime	94.1%	90.8%	86.7%	3.5M
HAR-Transformer	94.5%	91.2%	87.1%	4.2M
MoPFormer	95.8%	92.7%	89.3%	0.8M