STAMP: Spatial-Temporal Adapter with Multi-Head Pooling¶
会议: NeurIPS 2025
arXiv: 2511.10848
代码: https://github.com/autonlab/STAMP
领域: 脑电信号 / 基础模型适配
关键词: EEG分类, TSFM适配器, 时空编码, 多头池化, 参数高效
一句话总结¶
STAMP 为时间序列基础模型(TSFM)设计了仅 750K 参数的轻量空间-时间适配器,通过三组位置编码(token/空间/时间)+ 交叉 GMLP 混合 + 多头注意力池化,使冻结的 TSFM(如 MOMENT 385M)在 8 个 EEG 数据集上与 29M 参数的 EEG 专用模型(CBraMod)竞争或超越,在 BCIC-IV-2a 上 Kappa 比 CBraMod 高 193%。
研究背景与动机¶
- 领域现状:时间序列基础模型(TSFM,如 MOMENT、Chronos)在多领域预训练后展示了强大的通用表征能力。EEG 专用基础模型(CBraMod、LaBraM)在脑电分类上表现好但参数量大(29M/5.8M)且需 EEG 数据预训练。
- 现有痛点:TSFM 处理单变量时间序列——EEG 是 64 通道 × 1000+ 时间步的时空数据,TSFM 无法直接处理空间维度。简单地将每个通道独立送入 TSFM 丢失了通道间的空间关系。
- 核心矛盾:TSFM 有强大的时序表征但不理解空间结构;EEG 模型理解空间但需要大量 EEG 数据预训练。如何以最小代价让 TSFM 理解 EEG 的空间维度?
- 本文要解决什么? 设计轻量适配器让通用 TSFM 高效处理 EEG 时空数据。
- 切入角度:冻结 TSFM,只训练 750K 参数的适配器——三组位置编码注入空间信息 + 交叉 GMLP 混合空间和时间特征 + 多头注意力池化聚合。
- 核心 idea 一句话:三重位置编码(token+空间+时间)+ 交叉 GMLP 时空混合 + 多头池化 = 750K 参数让冻结 TSFM 处理 EEG 时空数据。
方法详解¶
整体框架¶
EEG 数据(\(S\) 通道 × \(T\) 时间步)→ TSFM(冻结,如 MOMENT-L 385M)编码为 \(S \times T' \times D\) (降维 1024→128)→ 位置编码(\(\tilde{e}_{ij} = e'_{ij} + p_{ij} + s_i + t_j\))→ CC-GMLP(空间和时间分离的门控混合)→ MHAP(多头注意力池化到固定长度向量)→ 分类头
关键设计¶
- 三组位置编码(PE-NST):
- 做什么:为 TSFM 输出的 token 注入空间-时间位置信息
- 核心思路:Token-wise PE \(p_{ij} \in \mathbb{R}^D\) 为每个 (通道,时间) 位置提供独立嵌入;Spatial PE \(s_i\) 编码通道身份(如 C3/C4/Oz 等);Temporal PE \(t_j\) 编码时间位置。三者相加
-
设计动机:消融实验表明三组 PE 都必要——仅 token PE 不够(缺乏通用的空间/时间结构),仅空间+时间 PE 也不够(缺乏位置特异性)
-
交叉 GMLP(CC-GMLP):
- 做什么:在空间和时间维度分别做特征混合
- 核心思路:空间门控 \(g_S(Z) = Z_1 \odot (W \cdot Z_2)\)(沿空间维度混合);时间门控类似但沿时间维度。两者独立操作保持时空分离
-
设计动机:Transformer 在时空序列上参数量过大;GMLP 更高效,CC(交叉)版本进一步减少参数(0.74M vs GMLP 0.79M)且效果更好
-
多头注意力池化(MHAP):
- 做什么:将变长的时空 token 聚合为固定长度分类向量
- 核心思路:多个可学习 query 向量通过注意力权重聚合 token 信息。最终分类 \(\hat{y} = \text{softmax}(W(\lambda z + (1-\lambda)\hat{e}))\)
- 设计动机:比 mean pooling 更灵活——可以学习关注不同时间段和空间区域
损失函数 / 训练策略¶
- 标准交叉熵分类损失
- MOMENT-Large(385M)冻结;适配器 750K 参数
- 支持多种 TSFM(MOMENT S/B/L、Chronos、TSPulse)
实验关键数据¶
主实验(8 个 EEG 数据集)¶
| 数据集 | STAMP (750K) | CBraMod (29M) | LaBraM (5.8M) | 结果 |
|---|---|---|---|---|
| SHU-MI | 0.660 AUC | 0.657 | 0.660 | 持平 |
| MentalArith | 0.811 | 0.749 | 0.772 | STAMP 赢 |
| BCIC-IV-2a | 0.409 Kappa | 0.212 | 0.316 | +193% |
| TUEV | 0.662 | 0.618 | 0.664 | 持平 |
| SEED-V | 0.208 | 0.259 | 0.239 | CBraMod 赢 |
| FACED | 0.278 | 0.508 | 0.470 | CBraMod 赢 |
6/8 数据集上竞争或超越,在情感识别上较弱。
消融实验¶
| 变体 | 说明 |
|---|---|
| PE-NST(全部三组) | 最优 |
| PE-ST(无 token PE) | 下降 |
| CC-GMLP vs Transformer | CC-GMLP 在所有 4 数据集上更优且参数更少 |
| MHAP vs Mean Pool | BCIC-IV-2a 上 MHAP 显著更好,其余相近 |
| 不同 TSFM backbone | MOMENT L > B > S;Chronos 在情感上略好;TSPulse 事件任务强 |
关键发现¶
- 750K 参数适配器让通用 TSFM 在大多数 EEG 任务上匹配 29M 参数的 EEG 专用模型——参数效率提升 39×
- 情感识别(SEED-V, FACED)是 TSFM 的弱点——TSFM 预训练缺乏情感相关的特征
- CC-GMLP 比 Transformer 在时空混合上更高效——说明 EEG 的时空关系相对简单,不需要全注意力
- TSFM backbone 选择影响不大——架构设计比预训练数据重要
亮点与洞察¶
- 参数效率极高:750K 适配器 + 385M 冻结 TSFM 的组合比 29M 的 EEG 专用模型更好——说明通用时序表征 + 轻量时空适配是更高效的范式
- CC-GMLP 的简洁设计:分离空间和时间的门控混合,既能避免维度灾难又保留了时空交互
- 对 TSFM 能力边界的发现:情感识别的失败揭示了 TSFM 预训练信号不包含情感语义——需要 EEG 特定的预训练
局限性 / 可改进方向¶
- 情感识别任务表现差——TSFM 预训练数据不包含情感相关的神经信号模式
- 仅做分类任务,未测试时序预测和生成——TSFM 的本行是预测,但 EEG 的预测任务较少
- 5 组位置编码(含 token PE 的完整设计)增加了超参数——需要针对不同 EEG 设备调节
- 750K 适配器虽轻量但仍需每个数据集单独训练——跨数据集零样本能力未验证
- CC-GMLP 假设时空维度可分离,对需要联合时空建模的任务(如脑-机接口快速响应)可能不够
- 依赖 TSFM 的 patch 级特征提取,对原始波形的细粒度事件可能丢失信息
相关工作与启发¶
- vs CBraMod: 29M 参数 EEG 专用模型,STAMP 用 750K 适配器 + 通用 TSFM 达到类似效果
- vs LaBraM: 5.8M 参数,STAMP 在多数任务上持平或更好
- 启发: 冻结大模型 + 轻量适配器的范式在 NLP/CV 中已成功,本文验证在 EEG 领域同样有效
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将 TSFM 适配到 EEG 时空数据
- 实验充分度: ⭐⭐⭐⭐⭐ 8 数据集 + 多 TSFM + 充分消融
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰
- 价值: ⭐⭐⭐⭐ 验证了通用 TSFM + 轻量适配在 EEG 领域的可行性