EEG-Language Pretraining for Highly Label-Efficient Clinical Phenotyping¶
会议: ICML 2025
arXiv: 2409.07480
代码: 未公开
领域: 脑电信号分析 / 多模态学习
关键词: EEG-语言模型, 多模态对齐, 多实例学习, 临床表型, 零样本分类, 病理检测, 自监督学习
一句话总结¶
本文首创 EEG-语言模型(ELM),在15000份EEG记录和临床报告上训练,结合时间序列裁剪、文本分割和多实例学习策略,首次实现了EEG的零样本分类和跨模态检索,在低标注场景下病理检测性能显著优于纯EEG自监督方法。
研究背景与动机¶
医学神经成像领域(特别是脑电图EEG)在利用深度学习方面严重滞后于其他领域。尽管EEG在癫痫和睡眠障碍等病理检测中广泛应用,但可用的标注数据极为稀缺。
现有挑战包括:
标注数据稀缺:自监督学习(SSL)可通过无标注数据预训练来扩大训练规模,但现有方法受限于数据增强设计困难和低信噪比。
跨模态信息未利用:计算机视觉和放射学领域已证明自然语言可显著提升表征学习,但EEG-语言预训练尚未被探索。
EEG报告的异质性:临床报告通常跨越多个段落,包含与下游任务无关的信息,且不含时间信息标注。
模态间错位:EEG为长时间序列,报告为多段落文本,两者之间存在粒度不匹配的问题。
核心动机:将自然语言作为预训练信号引入EEG表征学习,同时解决EEG-文本对的异质性和错位问题。
方法详解¶
整体框架¶
ELM框架包含以下核心组件(Figure 1):
- EEG编码器 \(f_e\):残差卷积神经网络,将EEG片段投射为低维向量
- 语言编码器 \(f_l\):预训练MedCPT模型(冻结权重),编码临床文本
- 投影器 \(g_e, g_l\):将两模态映射到共享潜在空间
关键设计¶
1. 子单元对齐策略¶
面对长时间序列和多段落报告的挑战,提出: - 时间序列裁剪:将EEG记录裁剪为多个非重叠片段(60秒/20秒) - 文本分割:利用正则表达式将报告按标题分割为临床病史、记录描述、用药和解读四类
2. 三种对齐策略¶
- ELM\(_{e,l}\)(类CLIP):EEG和文本分别投射到新的共享空间,使用InfoNCE损失
- ELM\(_l\)(类M-FLAG):EEG投射到语言模型输出空间,损失包括对齐损失+正交损失:
\(\mathcal{L}_{total} = \mathcal{L}_{align} + \mathcal{L}_{orth}\)
其中 \(\mathcal{L}_{align} = \|\hat{\mathbf{e}} - \hat{\mathbf{l}}\|_2^2\) 最小化嵌入差异,\(\mathcal{L}_{orth}\) 促进EEG嵌入维度间的独立性。
3. 多实例学习扩展(ELM-MIL)¶
核心创新——放松了每个EEG-文本对强对齐的假设:
- 对每个文本样本,采样多个正EEG片段近似 \(P(e|l)\) 分布
- 对每个EEG片段,采样多个文本段近似 \(P(l|e)\) 分布
- 双向对齐近似 \(P(e,l)\)
扩展InfoNCE损失至多实例:
\(\mathcal{L}^{e|l} = -\frac{1}{B_l}\sum_{k=1}^{B_l} \log \frac{\frac{1}{|P_k|}\sum_{j \in P_k} \exp(s^{e2l}_{j,k}/\tau)}{\sum_{j=1}^{B_e} \exp(s^{e2l}_{j,k}/\tau)}\)
温度参数 \(\tau = 0.3\),每个主题采样最多 \(N=32\) 个EEG片段和 \(M=8\) 个文本段。
4. 文本预处理¶
- 报告按标题分类为四类:临床病史、记录描述、用药信息、解读/印象
- 过滤无关信息(EEG系统信息、技术问题、免责声明等)
- 用Llama-3 8B本地生成单句摘要作为补充
损失函数¶
ELM-MIL最终损失:
\(\mathcal{L}^{e,l} = \frac{1}{2}(\mathcal{L}^{e|l} + \mathcal{L}^{l|e})\)
实验关键数据¶
主实验:TUAB病理检测(线性探测)¶
| 方法 | ZS(BAcc) | 1%(BAcc) | 10%(BAcc) | 100%(BAcc) | 1%(AUROC) | 100%(AUROC) |
|---|---|---|---|---|---|---|
| Supervised | - | 71.36 | 81.06 | 84.13 | 79.87 | 91.83 |
| TS (EEG-only) | - | 74.99 | 82.16 | 84.10 | 82.51 | 91.50 |
| ELM-MIL e,l | 84.31 | 83.10 | 84.21 | 87.11 | 91.56 | 93.91 |
| ELM-MIL e|l | 79.10 | 83.71 | 84.37 | 85.65 | 92.37 | 93.65 |
关键发现: - 零样本分类:ELM-MIL e,l达到84.31%平衡准确率,为该领域首次实现 - 低标注优势:仅1%标注数据下,AUROC达91.54%,比最佳EEG-only方法(TS 82.51%)提升约9个百分点 - 100%标注:AUROC 93.91%,显著超越全监督方法(91.83%)
跨数据集泛化(NMT数据集)¶
| 方法 | 1%(AUROC) | 10%(AUROC) | 100%(AUROC) |
|---|---|---|---|
| TS | 64.90 | 81.36 | 87.08 |
| ELM-MIL e,l | 76.10 | 88.98 | 90.25 |
在来自巴基斯坦、不同采集设备的NMT数据集上,ELM-MIL仅用1%标注即超过TS使用10%标注的性能。
检索性能¶
从437名患者中进行EEG↔报告检索,ELM-MIL在Top-K检索准确率上显著优于其他方法,证明了跨模态对齐的成功泛化。
亮点与洞察¶
- 首创EEG-语言预训练:填补了功能性脑数据与文本信息跨模态学习的空白
- 多实例学习的精妙设计:放松强对齐假设,更好地处理EEG-文本对中不一致的相关性
- 文本类型的重要性:整合多个文本集群(病史+描述+解读+用药)效果最佳,说明不同信息源提供了互补知识
- 子单元对齐的额外收益:即使在报告随机打乱的情况下,子单元对齐策略也能促进主体间信息编码,表明该策略具有固有优势
- 临床实用性:训练和推理阶段均不需要临床报告,与标准EEG临床实践完全兼容
局限性¶
- 数据集规模仍小于放射学和计算机视觉领域
- 报告文本异质性高,信息质量参差不齐
- 语言编码器冻结可能限制跨模态对齐的上限
- 评估主要集中在病理检测,尚未扩展到更细粒度的临床任务
相关工作¶
- EEG自监督学习:BYOL、VICReg、ContraWR、RP、TS、CPC
- 医学多模态语言建模:M-FLAG、CLIP、BiomedCLIP
- 多实例学习:MIL-NCE(视频-文本对齐)
评分¶
⭐⭐⭐⭐ — 开创性地将多模态语言建模引入EEG领域,MIL扩展设计精巧且有效。实验全面覆盖了零样本、低标注、跨数据集等场景。在临床应用上极具价值,尤其是低标注场景下的大幅提升。不足在于数据规模和下游任务的多样性有限。
相关论文¶
- [ICML 2025] From Token to Rhythm: A Multi-Scale Approach for ECG-Language Pretraining
- [ICCV 2025] GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology
- [CVPR 2026] MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration
- [NeurIPS 2025] Position: Thematic Analysis of Unstructured Clinical Transcripts with Large Language Models
- [CVPR 2026] Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning