PhysioWave: A Multi-Scale Wavelet-Transformer for Physiological Signal Representation¶

会议: NeurIPS 2025
arXiv: 2506.10351
代码: 有
领域: Medical Imaging / Biosignal Processing
关键词: 小波变换, 生理信号, 自监督学习, 多模态融合, 基础模型

一句话总结¶

提出 PhysioWave，一种基于可学习小波分解和频率引导掩码的多尺度 Transformer 架构，首次为 EMG 和 ECG 构建大规模预训练基础模型，并通过多模态融合框架在单模态和多模态生理信号任务上取得 SOTA 性能。

研究背景与动机¶

生理信号（EEG、EMG、ECG）是健康监测、临床诊断和脑机接口的核心数据源，但面临三大挑战：(1) 低信噪比：运动伪影、基线漂移等干扰严重；(2) 强非平稳性：信号包含尖峰和突变，传统时域或固定窗口傅里叶方法无法有效捕获；(3) 跨模态异质性：不同模态采样率、维度差异巨大。

虽然 EEG 领域已有 LaBraM、EEGPT 等预训练模型，但 EMG 和 ECG 的基础模型仍然空白。现有的基于 NLP 启发的自监督方法（如随机 token 掩码）不适合生理信号——原始信号片段不像单词那样对应有意义的单元，随机丢弃可能移除关键事件或遮盖冗余部分。

方法详解¶

整体框架¶

PhysioWave 的预训练流程包含四个阶段：(1) 可学习小波分解将原始多通道信号分解为多尺度频带表示；(2) 频率引导掩码（FgM）基于 FFT 能量选择性遮蔽高信息量 patch；(3) Transformer 编码器处理 token 序列；(4) 轻量级解码器重建被掩码的 patch。

关键设计¶

自适应小波选择器 (Adaptive Wavelet Selector)：维护 \(M\) 个候选小波基 \(\{(k_w^{\text{low}}, k_w^{\text{high}})\}_{w=1}^M\)，通过 MLP + Softmax 对输入信号计算选择权重 \(\alpha = \text{Softmax}(\text{MLP}(\text{AvgPool}(x)))\)，自适应组合滤波器 \(k^{\text{low}} = \sum_w \alpha_w k_w^{\text{low}}\)。设计动机是不同信号特性需要不同的小波基，传统手工选择无法适应多样化信号。
软门控多分辨率分析 (Soft-Gated Analysis)：每层分解后上采样回原始长度，通过 multi-head attention 估计自适应门控 \(G_c^{(\ell)} \in [0,1]\)，动态加权当前层信号和上采样信号：\(\hat{a}_c^{(\ell)}[n] = G_c^{(\ell)} a_c^{(\ell)} + (1-G_c^{(\ell)}) \tilde{a}_c^{(\ell+1)}\)。相比 U-Net 的硬跳连，软门控可逐通道调节频率内容侧重，减少混叠和振铃伪影。
跨尺度通道聚合前馈网络 (Cross-Scale CAFFN)：每层小波特征通过通道聚合和多头注意力进行跨尺度融合，当前层特征作 query、浅层特征作 key/value：\(Y^{(\ell)} = U^{(\ell)} + \beta \cdot \text{Attention}(U^{(\ell)}, \{Y^{(i)}\}_{i<\ell})\)，使细粒度子带特征获得粗分辨率长程模式的信息。
频率引导掩码 (Frequency-guided Masking, FgM)：对每个 patch 计算 FFT 频谱能量，与随机噪声混合得到重要性分数 \(s_n = \alpha \cdot e_n + (1-\alpha) \cdot z_n\)，优先掩码高能量 patch。这迫使模型从上下文推断关键信息，相比随机时域掩码能产生更丰富的判别性特征。

损失函数 / 训练策略¶

预训练损失：仅在被掩码 patch 上计算 Smooth-L1 重建损失：\(\mathcal{L} = \frac{1}{|\mathcal{M}|} \sum_{n \in \mathcal{M}} \text{SmoothL1}(\hat{p}_n, p_n)\)
单模态下游：端到端微调，mean pooling 后接两层 MLP 分类
多模态下游：冻结各模态预训练编码器，仅训练分类头和 softmax 约束的融合权重，\(z_{\text{fused}} = \sum_{m \in \mathcal{M}} \alpha_m z_m\)

实验关键数据¶

主实验¶

ECG 心律分类 (PTB-XL)

方法	参数量	F1 (%)	AUROC (%)
ECG-Chat (2024)	13B	55.9	94.1
MaeFE (2023)	9M	64.7	88.6
PhysioWave-Large	37M	66.7	94.6

EMG 手势识别 (EPN-612)

方法	参数量	Acc (%)	F1 (%)
Moment (2024)	385M	90.87	90.16
OTiS (2024)	45M	87.55	88.03
PhysioWave-Large	37M	94.50	94.56

消融实验¶

配置	训练损失	Acc (%)	F1 (%)
无 FgM（随机掩码）	0.24	92.48	92.85
无预训练	0.27	91.67	91.57
完整模型	0.22	93.12	93.67

关键发现¶

PhysioWave-Large 在 PTB-XL 上 F1 达 66.7%，超越 13B 参数的 ECG-Chat
EMG 模型以不到 Moment 1/10 的参数在三个基准上全面超越
多模态融合在 DEAP 情绪识别上带来 +7.3% 准确率提升（81.3%→88.6%）
FgM 比随机掩码提升 0.8% F1，预训练带来 2.1% F1 增益

亮点与洞察¶

首次为 EMG/ECG 构建大规模预训练基础模型，分别用 823GB EMG 和 182GB ECG 数据训练，填补了重要空白
可学习小波分解优雅地解决了生理信号的多尺度、非平稳特性，作为通用前端效果显著
FgM 策略将掩码从"随机丢弃"升级为"信息引导"，契合生理信号不均匀信息分布的特点
多模态框架通过冻结编码器 + 轻量融合的设计，避免了小数据集上的过拟合风险

局限与展望¶

暂未支持光学生物传感等其他模态
多模态融合仅使用简单的加权求和，更复杂的注意力融合可能进一步提升性能
预训练数据集偏向西方人群，在不同种族/年龄群体上的泛化能力有待验证
实时推理效率未充分讨论，对边缘设备部署场景可能存在挑战

评分¶

新颖性: ⭐⭐⭐⭐ （可学习小波 + FgM 组合新颖，但各组件有先验工作）
实验充分度: ⭐⭐⭐⭐⭐ （3种模态、6+数据集、消融全面）
写作质量: ⭐⭐⭐⭐ （结构清晰，公式详尽）
价值: ⭐⭐⭐⭐⭐ （填补 EMG/ECG 基础模型空白，实际应用价值高）