STAMP: Spatial-Temporal Adapter with Multi-Head Pooling¶

会议: NeurIPS 2025
arXiv: 2511.10848
代码: https://github.com/autonlab/STAMP
领域: 脑电信号 / 基础模型适配
关键词: EEG分类, TSFM适配器, 时空编码, 多头池化, 参数高效

一句话总结¶

STAMP 为时间序列基础模型（TSFM）设计了仅 750K 参数的轻量空间-时间适配器，通过三组位置编码（token/空间/时间）+ 交叉 GMLP 混合 + 多头注意力池化，使冻结的 TSFM（如 MOMENT 385M）在 8 个 EEG 数据集上与 29M 参数的 EEG 专用模型（CBraMod）竞争或超越，在 BCIC-IV-2a 上 Kappa 比 CBraMod 高 193%。

研究背景与动机¶

领域现状：时间序列基础模型（TSFM，如 MOMENT、Chronos）在多领域预训练后展示了强大的通用表征能力。EEG 专用基础模型（CBraMod、LaBraM）在脑电分类上表现好但参数量大（29M/5.8M）且需 EEG 数据预训练。
现有痛点：TSFM 处理单变量时间序列——EEG 是 64 通道 × 1000+ 时间步的时空数据，TSFM 无法直接处理空间维度。简单地将每个通道独立送入 TSFM 丢失了通道间的空间关系。
核心矛盾：TSFM 有强大的时序表征但不理解空间结构；EEG 模型理解空间但需要大量 EEG 数据预训练。如何以最小代价让 TSFM 理解 EEG 的空间维度？
本文要解决什么？ 设计轻量适配器让通用 TSFM 高效处理 EEG 时空数据。
切入角度：冻结 TSFM，只训练 750K 参数的适配器——三组位置编码注入空间信息 + 交叉 GMLP 混合空间和时间特征 + 多头注意力池化聚合。
核心 idea 一句话：三重位置编码（token+空间+时间）+ 交叉 GMLP 时空混合 + 多头池化 = 750K 参数让冻结 TSFM 处理 EEG 时空数据。

方法详解¶

整体框架¶

EEG 数据（\(S\) 通道 × \(T\) 时间步）→ TSFM（冻结，如 MOMENT-L 385M）编码为 \(S \times T' \times D\) （降维 1024→128）→ 位置编码（\(\tilde{e}_{ij} = e'_{ij} + p_{ij} + s_i + t_j\)）→ CC-GMLP（空间和时间分离的门控混合）→ MHAP（多头注意力池化到固定长度向量）→ 分类头

关键设计¶

三组位置编码（PE-NST）:
做什么：为 TSFM 输出的 token 注入空间-时间位置信息
核心思路：Token-wise PE \(p_{ij} \in \mathbb{R}^D\) 为每个 (通道,时间) 位置提供独立嵌入；Spatial PE \(s_i\) 编码通道身份（如 C3/C4/Oz 等）；Temporal PE \(t_j\) 编码时间位置。三者相加
设计动机：消融实验表明三组 PE 都必要——仅 token PE 不够（缺乏通用的空间/时间结构），仅空间+时间 PE 也不够（缺乏位置特异性）
交叉 GMLP（CC-GMLP）:
做什么：在空间和时间维度分别做特征混合
核心思路：空间门控 \(g_S(Z) = Z_1 \odot (W \cdot Z_2)\)（沿空间维度混合）；时间门控类似但沿时间维度。两者独立操作保持时空分离
设计动机：Transformer 在时空序列上参数量过大；GMLP 更高效，CC（交叉）版本进一步减少参数（0.74M vs GMLP 0.79M）且效果更好
多头注意力池化（MHAP）:
做什么：将变长的时空 token 聚合为固定长度分类向量
核心思路：多个可学习 query 向量通过注意力权重聚合 token 信息。最终分类 \(\hat{y} = \text{softmax}(W(\lambda z + (1-\lambda)\hat{e}))\)
设计动机：比 mean pooling 更灵活——可以学习关注不同时间段和空间区域

损失函数 / 训练策略¶

标准交叉熵分类损失
MOMENT-Large（385M）冻结；适配器 750K 参数
支持多种 TSFM（MOMENT S/B/L、Chronos、TSPulse）

实验关键数据¶

主实验（8 个 EEG 数据集）¶

数据集	STAMP (750K)	CBraMod (29M)	LaBraM (5.8M)	结果
SHU-MI	0.660 AUC	0.657	0.660	持平
MentalArith	0.811	0.749	0.772	STAMP 赢
BCIC-IV-2a	0.409 Kappa	0.212	0.316	+193%
TUEV	0.662	0.618	0.664	持平
SEED-V	0.208	0.259	0.239	CBraMod 赢
FACED	0.278	0.508	0.470	CBraMod 赢

6/8 数据集上竞争或超越，在情感识别上较弱。

消融实验¶

变体	说明
PE-NST（全部三组）	最优
PE-ST（无 token PE）	下降
CC-GMLP vs Transformer	CC-GMLP 在所有 4 数据集上更优且参数更少
MHAP vs Mean Pool	BCIC-IV-2a 上 MHAP 显著更好，其余相近
不同 TSFM backbone	MOMENT L > B > S；Chronos 在情感上略好；TSPulse 事件任务强

关键发现¶

750K 参数适配器让通用 TSFM 在大多数 EEG 任务上匹配 29M 参数的 EEG 专用模型——参数效率提升 39×
情感识别（SEED-V, FACED）是 TSFM 的弱点——TSFM 预训练缺乏情感相关的特征
CC-GMLP 比 Transformer 在时空混合上更高效——说明 EEG 的时空关系相对简单，不需要全注意力
TSFM backbone 选择影响不大——架构设计比预训练数据重要

亮点与洞察¶

参数效率极高：750K 适配器 + 385M 冻结 TSFM 的组合比 29M 的 EEG 专用模型更好——说明通用时序表征 + 轻量时空适配是更高效的范式
CC-GMLP 的简洁设计：分离空间和时间的门控混合，既能避免维度灾难又保留了时空交互
对 TSFM 能力边界的发现：情感识别的失败揭示了 TSFM 预训练信号不包含情感语义——需要 EEG 特定的预训练

局限性 / 可改进方向¶

情感识别任务表现差——TSFM 预训练数据不包含情感相关的神经信号模式
仅做分类任务，未测试时序预测和生成——TSFM 的本行是预测，但 EEG 的预测任务较少
5 组位置编码（含 token PE 的完整设计）增加了超参数——需要针对不同 EEG 设备调节
750K 适配器虽轻量但仍需每个数据集单独训练——跨数据集零样本能力未验证
CC-GMLP 假设时空维度可分离，对需要联合时空建模的任务（如脑-机接口快速响应）可能不够
依赖 TSFM 的 patch 级特征提取，对原始波形的细粒度事件可能丢失信息

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 TSFM 适配到 EEG 时空数据
实验充分度: ⭐⭐⭐⭐⭐ 8 数据集 + 多 TSFM + 充分消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 验证了通用 TSFM + 轻量适配在 EEG 领域的可行性