EEG-DLite: Dataset Distillation for Efficient Large EEG Model Training¶

会议: AAAI 2026
arXiv: 2512.12210
代码: github
领域: 模型压缩
关键词: 数据蒸馏, EEG基础模型, 自监督学习, 核心集选择, 预训练效率

一句话总结¶

提出 EEG-DLite 数据蒸馏框架，通过自监督编码+异常值过滤+多样性采样，将2500小时 EEG 数据集压缩至仅5%即可达到甚至超越全数据集预训练的基础模型性能，GPU预训练时间从30小时降至2小时。

研究背景与动机¶

领域现状¶

大规模 EEG 基础模型（如 LaBraM）通过在大量无标签 EEG 数据上进行自监督预训练，已在情感识别、运动想象、临床分类等多种下游任务上展现出强大的泛化能力。这类模型通常基于 Transformer 架构，参数量可超过4亿，预训练数据量达2500小时以上。

现有痛点¶

训练代价极高：预训练需要大量 GPU 时间（30小时/4×RTX 4090）和存储资源，限制了参数优化和架构搜索的可行性

EEG 信号特殊性：EEG 信号具有极低的信噪比（SNR），容易被眼动、肌电等伪影干扰；且时间上相邻片段高度冗余

数据质量被忽视：现有工作聚焦架构创新和迁移学习，很少研究预训练数据的组成和质量如何影响模型泛化

核心矛盾¶

大规模 EEG 数据中存在大量噪声样本和冗余样本，但现有基础模型仍需在全量数据上预训练，导致资源严重浪费。

切入角度¶

受CV领域数据蒸馏方法启发，但针对 EEG 信号的低信噪比和高冗余特性设计专用的蒸馏策略。核心 idea 是：先用自监督自编码器将高维 EEG 压缩到低维潜在空间，再在该空间中高效地去噪和去冗余。

方法详解¶

整体框架¶

EEG-DLite 是一个三阶段的数据蒸馏 pipeline，与具体的基础模型架构解耦： 1. 多视角神经压缩器：用自监督自编码器将 EEG 片段编码为紧凑的低维表示 2. 异常值去除：基于 HBOS 方法在潜在空间过滤噪声/伪影样本 3. 多样性采样：用 k-center 贪心算法选择最具代表性的子集

关键设计¶

多视角自监督自编码器（Multi-view Neural Compressor）:
- 功能：将高维 EEG 信号 \(X \in \mathbb{R}^{C \times T}\) 压缩为64维潜在表示 \(\mathbf{z}\)
- 核心思路：对每个 EEG 片段同时计算原始信号、FFT幅值和FFT相位三个视角，将三个视角拼接后通过 CNN 提取 patch-level token，再输入 Transformer 编码器捕获全局依赖
- 编码器：6层自注意力层，8个注意力头；解码器：2层 Transformer + MLP
- 设计动机：直接在原始 EEG 空间做样本选择对噪声过于敏感，且维度太高计算量大；而频谱视角可提供互补的信号质量信息
自监督训练目标:
- 重构损失：\(\mathcal{L}_{Rec} = \sum_{i=1}^{L}(\mathbf{x}'_i - \mathbf{x}_i)^2\)，确保编码器能准确编码神经信号内容
- 实例间判别损失（IDC）：\(\mathcal{L}_{IDC}\) 惩罚批次内不同样本 token 之间的余弦相似度过高，鼓励特征多样性
- 联合目标：\(\mathcal{L} = \mathcal{L}_{Rec} + \beta \cdot \mathcal{L}_{IDC}\)，其中 \(\beta=0.0001\)
- 设计动机：IDC 损失使得编码器学到更具区分力的表示，便于后续的异常值检测和多样性采样
异常值去除（Outlier Sample Removal）:
- 功能：基于 HBOS 方法计算每个样本的 OOD 得分，去除得分最高的 \(\tau\%\) 样本
- OOD 得分：\(\text{OOD}(X) = \sum_{i=1}^{d} \log \frac{1}{p_i(x_i) + \alpha}\)，其中 \(p_i\) 是第 \(i\) 个特征维度的直方图概率
- 设计动机：EEG 数据中常含有伪影污染的低质量片段，这些片段会降低后续多样性采样的质量；在潜在空间做异常检测比在原始空间更稳健
多样性采样（Diversity Sampling）:
- 功能：从去噪后的数据中选取 \(\eta\%\) 最具代表性的样本
- 核心公式：\(\min_{\boldsymbol{\mu} \subset \mathcal{Z}'} \max_{\mathbf{z} \in \mathcal{Z}'} \min_{k \in \mathcal{K}} \|\mathbf{z} - \boldsymbol{\mu}_k\|_2^2\)（k-center 问题）
- 实现：采用贪心近似算法，迭代选择与已选点距离最远的样本，时间复杂度 \(\mathcal{O}(k \times N \times d)\)
- 设计动机：确保选出的子集能覆盖原始数据的分布多样性，而非简单的随机采样

训练策略¶

压缩器训练：Adam 优化器，学习率0.001，50 epochs，梯度裁剪 max norm=5.0
学习率调度：每10个 epoch 衰减0.5倍
EEG 片段分割为20个不重叠 patch

实验关键数据¶

主实验¶

实验基于 LaBraM-base 架构，在4个下游任务上评估不同蒸馏方法和蒸馏比例：

数据集	指标	EEG-DLite (5%)	Random (5%)	Full (100%)	说明
SEED-V	Accuracy	38.6	34.6	41.0	5分类情感识别
SEED-V	F1	38.9	34.9	41.2	EEG-DLite远超Random
MoBI	PCC	0.550	0.530	0.538	回归任务，超越全数据
MoBI	R²	0.283	0.260	0.288	接近全数据性能
TUEV	Balanced Acc	62.9	62.3	64.1	6分类EEG事件检测
TUEV	F1	80.7	79.3	83.1	仅用5%数据
TUAB	Balanced Acc	80.7	80.7	81.4	二分类正常/异常EEG
TUAB	AUROC	90.3	90.0	90.2	超越全数据集

核心发现：仅用5%数据蒸馏子集预训练即可达到接近甚至超越全量数据的性能。

消融实验¶

配置	SEED-V Acc (η=5%)	MoBI PCC (η=5%)	说明
Random baseline	34.6	0.530	随机采样下界
PCA + Diversity Sampling	31.0	0.534	PCA降维不如SSL
M3D (生成式)	26.9	0.465	生成式方法效果差
EEG-DLite (τ=0, 无OOD去除)	未报告	未报告	OOD去除有帮助
EEG-DLite (完整)	38.6	0.550	全部组件最优

OOD去除消融（SEED数据集，EEGNet监督学习）：

配置	η(%)	Acc	F1	κ
完整方法 τ=0	25	54.6	55.1	29.1
完整方法 τ=1%	25	55.3	55.7	31.3
Full Data	100	54.6	55.4	30.8

关键发现¶

5%即够：仅用5%数据即可达到全数据集的性能水平，说明大规模 EEG 数据中存在大量冗余
生成式方法失败：M3D 生成的 EEG 合成样本质量极差（出现不自然的平台、方块状模式），在所有比例下均不如随机采样
SSL优于PCA：自监督学习生成的表示比PCA降维更稳定、更具判别力
蒸馏后甚至更优：在 TUEV、MoBI、TUAB 等数据集上，蒸馏子集训练的模型超越全量数据训练的模型
受试者方差增大：多样性采样后，不同受试者的样本贡献比例出现显著差异，反映了 EEG 信号的个体差异性
时间大幅缩短：GPU 预训练时间从30小时降至2小时（4×RTX 4090）

亮点与洞察¶

首个 EEG 基础模型数据蒸馏工作：填补了生理信号预训练数据效率的研究空白
框架设计优雅：三阶段设计（压缩→去噪→去冗余）逻辑清晰，且与下游基础模型架构解耦
多视角编码：同时利用时域和频域信息，充分利用 EEG 信号的频谱特性
实用价值高：5%数据 → 15x训练加速，对资源受限场景意义重大
反直觉发现：精心选择的小数据集可以比大数据集训练出更好的模型

局限与展望¶

仅在 LaBraM 一个基础模型上验证，需扩展到其他 EEG 架构
蒸馏过程本身也需要在全量数据上训练自编码器，存在一定的前期开销
受试者感知的采样策略尚未被探索，可能进一步提升跨受试者泛化
未探索不同预训练目标（如对比学习 vs 掩码预测）对蒸馏子集选择的影响
生成式方法在 EEG 上的失败值得更深入的分析和专门设计

评分¶

新颖性: ⭐⭐⭐⭐ （首个 EEG 数据蒸馏工作，但方法组件本身并不全新）
实验充分度: ⭐⭐⭐⭐⭐ （4个下游任务，多种蒸馏比例，充分的消融和对比）
写作质量: ⭐⭐⭐⭐ （结构清晰，图表丰富）
价值: ⭐⭐⭐⭐⭐ （实用意义大，15x训练加速且不损性能）