Tokenizing Single-Channel EEG with Time-Frequency Motif Learning¶

会议: ICLR 2026
arXiv: 2502.16060
代码: https://github.com/Jathurshan0330/TFM-Tokenizer
领域: 模型压缩
关键词: EEG 信号分析, 离散化 tokenization, 时频 motif, 向量量化, 基础模型

一句话总结¶

提出 TFM-Tokenizer，首个从单通道 EEG 学习时频 motif 词表并编码为离散 token 的框架，在事件分类、癫痫检测等任务上一致提升性能，且可作为即插即用组件增强现有 EEG 基础模型。

研究背景与动机¶

EEG 基础模型热潮: 受 NLP 启发，EEG 分析领域正向任务无关的基础模型范式转变
Tokenization 缺失: NLP 的核心是 tokenization，但现有 EEG 基础模型仅简单将连续信号分段为短时窗口，缺乏数据驱动的词表学习
- LaBraM 虽提出神经 tokenizer，但仅作为训练目标而非实际输入，下游推理时丢弃
三大挑战:
Tokenization 粒度: 需要在单通道级别操作以实现设备无关性
Token 分辨率: 需要表示底层 motif（短时重复模式），而非简单时间片段
学习目标: 需要显式融合时频信息，仅靠时域无法捕获重要的频率模式

方法详解¶

整体框架¶

两阶段设计： 1. TFM-Tokenizer 预训练: 单通道无监督学习时频 motif 词表 2. 下游 Transformer 训练: 使用离散 token 序列进行掩码预训练和微调

关键设计 1: 双路径时频编码¶

局部频谱窗口编码器 (Localized Spectral Window Encoder): - 将频谱图沿频率轴分为 \(P\) 个不重叠的 patch - 每个 patch 独立投影：\(e_{(i,p)} = \text{GroupNorm}(\text{GeLU}(\mathbf{W}_p \mathbf{S}_{(i,p)}))\) - 频率 Transformer 建模跨频带依赖 - 门控逐 patch 聚合: 使用 sigmoid 门控选择性强调重要频率 patch：

\[\mathbf{E}_i^F = \text{Concat}\left[\sigma(\mathbf{W}_{g1} \mathbf{e}_{(i,p)}) \mathbf{W}_{g2} \mathbf{e}_{(i,p)}\right]\]

时间编码器: 将原始 EEG patch 线性投影 + GELU + GroupNorm

时间 Transformer: 将频率嵌入 \(\mathbf{E}_i^F\) 与时间嵌入 \(\mathbf{E}_i^T\) 拼接后建模长程依赖

关键设计 2: VQ 词表学习¶

使用向量量化 (VQ-VAE) 将融合嵌入映射到离散码本：

\[q(\mathbf{z}_i) = \arg\min_{\mathbf{v}_k \in \mathcal{V}} \|\mathbf{z}_i - \mathbf{v}_k\|_2^2\]

关键设计 3: 时频掩码预测¶

联合频率-时间掩码策略： - 频率轴分组随机掩码 \(M_F\) + 时间轴随机掩码 \(M_T\) - 对称掩码用于数据增强

总体损失：

\[\mathcal{L}_{\text{token}} = \sum_{(f,t)} \|\mathbf{S}(f,t) - \hat{\mathbf{S}}(f,t)\|_2^2 + \alpha \sum_i \|\text{sg}[E_i] - v_i\|_2^2 + \beta \sum_i \|E_i - \text{sg}[v_i]\|_2^2\]

重建损失 + 码本更新（commitment loss + 指数移动平均）
不使用位置编码（EEG 非平稳且可能混沌）

下游 Transformer¶

使用 VQ 码本初始化 token 嵌入查找表
线性注意力 Transformer（~0.7M 参数）
跨通道结合通道嵌入和位置嵌入
掩码 token 预测预训练 + 下游任务微调

实验¶

主实验：TUEV 事件分类¶

模型	参数量	Cohen's Kappa（单数据集）	Cohen's Kappa（多数据集）
SPaRCNet	0.79M	0.4233	-
BIOT	3.2M	0.4482	-
BIOT⋆	3.2M	0.4890	-
LaBraM⋆	~6M	-	0.5588
TFM-Tokenizer	~0.7M	~0.53	0.6189 (+11%)

IIIC 癫痫分类¶

模型	Cohen's Kappa（多数据集）
LaBraM	0.3658
CBraMod	0.4792
TFM-Tokenizer	0.4979 (+36% vs LaBraM)

跨设备可扩展性：耳 EEG 睡眠分期¶

设置	TFM-Tokenizer vs 基线
耳 EEG（非标 10-20 系统）	+14%

与现有基础模型集成¶

基础模型	原始	+ TFM-Tokenizer
BIOT	baseline	+~4% (TUEV)
LaBraM	baseline	+~4% (TUEV)

关键发现¶

TFM-Tokenizer 以 3× 少于 LaBraM 和 1.5× 少于 BIOT 的参数量达到最优性能
作为即插即用组件可一致性提升 BIOT 和 LaBraM 等现有基础模型
跨设备实验（耳 EEG）证明单通道 tokenization 具有良好的设备无关性
Token 分析显示学到的 token 具有类判别性、频率感知性和一致性
门控聚合机制有效聚焦任务相关频率带

亮点¶

首个真正的 EEG tokenization: 学习离散 motif 词表并直接作为下游模型输入，而非仅用作训练目标
设备无关设计: 单通道操作使 tokenizer 可适应任意通道配置和设备
极致轻量: ~0.7M 参数的下游 Transformer 即可达到 SOTA
可解释性: 离散 token 与具体神经生理事件对应，支持时间戳级检索

局限性¶

VQ 码本大小 \(K\) 需要预设，对不同 EEG 类型可能需调整
目前仅在分类任务上验证，生成式任务（如 EEG 重建、跨模态翻译）未探索
门控聚合的频率 patch 大小和分频策略可能需要针对不同采样率调整
多数据集预训练的规模仍远小于 NLP 语料库，tokenizer 的上限潜力未充分挖掘
耳 EEG 实验仅 10 名受试者，样本量有限

评分¶

维度	分数
创新性	★★★★★
理论深度	★★★☆☆
实验充分性	★★★★☆
实用价值	★★★★☆
写作质量	★★★★☆