跳转至

STAMP: Spatial-Temporal Adapter with Multi-Head Pooling

会议: NeurIPS 2025
arXiv: 2511.10848
代码: https://github.com/autonlab/STAMP
领域: 脑电信号 / 基础模型适配
关键词: EEG分类, TSFM适配器, 时空编码, 多头池化, 参数高效

一句话总结

STAMP 为时间序列基础模型(TSFM)设计了仅 750K 参数的轻量空间-时间适配器,通过三组位置编码(token/空间/时间)+ 交叉 GMLP 混合 + 多头注意力池化,使冻结的 TSFM(如 MOMENT 385M)在 8 个 EEG 数据集上与 29M 参数的 EEG 专用模型(CBraMod)竞争或超越,在 BCIC-IV-2a 上 Kappa 比 CBraMod 高 193%。

研究背景与动机

  1. 领域现状:时间序列基础模型(TSFM,如 MOMENT、Chronos)在多领域预训练后展示了强大的通用表征能力。EEG 专用基础模型(CBraMod、LaBraM)在脑电分类上表现好但参数量大(29M/5.8M)且需 EEG 数据预训练。
  2. 现有痛点:TSFM 处理单变量时间序列——EEG 是 64 通道 × 1000+ 时间步的时空数据,TSFM 无法直接处理空间维度。简单地将每个通道独立送入 TSFM 丢失了通道间的空间关系。
  3. 核心矛盾:TSFM 有强大的时序表征但不理解空间结构;EEG 模型理解空间但需要大量 EEG 数据预训练。如何以最小代价让 TSFM 理解 EEG 的空间维度?
  4. 本文要解决什么? 设计轻量适配器让通用 TSFM 高效处理 EEG 时空数据。
  5. 切入角度:冻结 TSFM,只训练 750K 参数的适配器——三组位置编码注入空间信息 + 交叉 GMLP 混合空间和时间特征 + 多头注意力池化聚合。
  6. 核心 idea 一句话:三重位置编码(token+空间+时间)+ 交叉 GMLP 时空混合 + 多头池化 = 750K 参数让冻结 TSFM 处理 EEG 时空数据。

方法详解

整体框架

EEG 数据(\(S\) 通道 × \(T\) 时间步)→ TSFM(冻结,如 MOMENT-L 385M)编码为 \(S \times T' \times D\) (降维 1024→128)→ 位置编码\(\tilde{e}_{ij} = e'_{ij} + p_{ij} + s_i + t_j\))→ CC-GMLP(空间和时间分离的门控混合)→ MHAP(多头注意力池化到固定长度向量)→ 分类头

关键设计

  1. 三组位置编码(PE-NST):
  2. 做什么:为 TSFM 输出的 token 注入空间-时间位置信息
  3. 核心思路:Token-wise PE \(p_{ij} \in \mathbb{R}^D\) 为每个 (通道,时间) 位置提供独立嵌入;Spatial PE \(s_i\) 编码通道身份(如 C3/C4/Oz 等);Temporal PE \(t_j\) 编码时间位置。三者相加
  4. 设计动机:消融实验表明三组 PE 都必要——仅 token PE 不够(缺乏通用的空间/时间结构),仅空间+时间 PE 也不够(缺乏位置特异性)

  5. 交叉 GMLP(CC-GMLP):

  6. 做什么:在空间和时间维度分别做特征混合
  7. 核心思路:空间门控 \(g_S(Z) = Z_1 \odot (W \cdot Z_2)\)(沿空间维度混合);时间门控类似但沿时间维度。两者独立操作保持时空分离
  8. 设计动机:Transformer 在时空序列上参数量过大;GMLP 更高效,CC(交叉)版本进一步减少参数(0.74M vs GMLP 0.79M)且效果更好

  9. 多头注意力池化(MHAP):

  10. 做什么:将变长的时空 token 聚合为固定长度分类向量
  11. 核心思路:多个可学习 query 向量通过注意力权重聚合 token 信息。最终分类 \(\hat{y} = \text{softmax}(W(\lambda z + (1-\lambda)\hat{e}))\)
  12. 设计动机:比 mean pooling 更灵活——可以学习关注不同时间段和空间区域

损失函数 / 训练策略

  • 标准交叉熵分类损失
  • MOMENT-Large(385M)冻结;适配器 750K 参数
  • 支持多种 TSFM(MOMENT S/B/L、Chronos、TSPulse)

实验关键数据

主实验(8 个 EEG 数据集)

数据集 STAMP (750K) CBraMod (29M) LaBraM (5.8M) 结果
SHU-MI 0.660 AUC 0.657 0.660 持平
MentalArith 0.811 0.749 0.772 STAMP 赢
BCIC-IV-2a 0.409 Kappa 0.212 0.316 +193%
TUEV 0.662 0.618 0.664 持平
SEED-V 0.208 0.259 0.239 CBraMod 赢
FACED 0.278 0.508 0.470 CBraMod 赢

6/8 数据集上竞争或超越,在情感识别上较弱。

消融实验

变体 说明
PE-NST(全部三组) 最优
PE-ST(无 token PE) 下降
CC-GMLP vs Transformer CC-GMLP 在所有 4 数据集上更优且参数更少
MHAP vs Mean Pool BCIC-IV-2a 上 MHAP 显著更好,其余相近
不同 TSFM backbone MOMENT L > B > S;Chronos 在情感上略好;TSPulse 事件任务强

关键发现

  • 750K 参数适配器让通用 TSFM 在大多数 EEG 任务上匹配 29M 参数的 EEG 专用模型——参数效率提升 39×
  • 情感识别(SEED-V, FACED)是 TSFM 的弱点——TSFM 预训练缺乏情感相关的特征
  • CC-GMLP 比 Transformer 在时空混合上更高效——说明 EEG 的时空关系相对简单,不需要全注意力
  • TSFM backbone 选择影响不大——架构设计比预训练数据重要

亮点与洞察

  • 参数效率极高:750K 适配器 + 385M 冻结 TSFM 的组合比 29M 的 EEG 专用模型更好——说明通用时序表征 + 轻量时空适配是更高效的范式
  • CC-GMLP 的简洁设计:分离空间和时间的门控混合,既能避免维度灾难又保留了时空交互
  • 对 TSFM 能力边界的发现:情感识别的失败揭示了 TSFM 预训练信号不包含情感语义——需要 EEG 特定的预训练

局限性 / 可改进方向

  • 情感识别任务表现差——TSFM 预训练数据不包含情感相关的神经信号模式
  • 仅做分类任务,未测试时序预测和生成——TSFM 的本行是预测,但 EEG 的预测任务较少
  • 5 组位置编码(含 token PE 的完整设计)增加了超参数——需要针对不同 EEG 设备调节
  • 750K 适配器虽轻量但仍需每个数据集单独训练——跨数据集零样本能力未验证
  • CC-GMLP 假设时空维度可分离,对需要联合时空建模的任务(如脑-机接口快速响应)可能不够
  • 依赖 TSFM 的 patch 级特征提取,对原始波形的细粒度事件可能丢失信息

相关工作与启发

  • vs CBraMod: 29M 参数 EEG 专用模型,STAMP 用 750K 适配器 + 通用 TSFM 达到类似效果
  • vs LaBraM: 5.8M 参数,STAMP 在多数任务上持平或更好
  • 启发: 冻结大模型 + 轻量适配器的范式在 NLP/CV 中已成功,本文验证在 EEG 领域同样有效

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将 TSFM 适配到 EEG 时空数据
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 数据集 + 多 TSFM + 充分消融
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰
  • 价值: ⭐⭐⭐⭐ 验证了通用 TSFM + 轻量适配在 EEG 领域的可行性