Towards Self-Supervised Foundation Models for Critical Care Time Series¶

会议: NeurIPS 2025
arXiv: 2509.19885
代码: GitHub
领域: 医学图像
关键词: 自监督学习, 基础模型, 重症监护, 时间序列, 迁移学习

一句话总结¶

基于双轴Transformer（BAT）架构，在多个ICU数据集上进行自监督预训练，构建重症监护时间序列基础模型，在小数据集场景下显著优于监督学习基线。

研究背景与动机¶

医疗领域的基础模型在NLP、医学影像等方向已有长足发展，但重症监护时间序列方向仍严重不足。其核心原因在于：

数据稀缺与异构性：公开可用的ICU数据集数量有限且格式各异，不同医院的监测设备和采样频率差异巨大

可复现性差：已有模型往往依赖单一数据集、单一监督任务训练，结果难以在新临床环境中复现

迁移能力弱：在一个数据集上训练的模型直接迁移到新数据集效果急剧下降（如AUC-ROC下降4-5个点）

现有工作闭源：首个ICU基础模型ICareFM的代码和模型均未公开

本文希望在透明、可复现的框架（YAIB）中，通过池化多个ICU数据集并进行自监督预训练，构建首个开源的重症监护时间序列基础模型，特别关注资源受限场景（标注数据少）下的表现。

方法详解¶

整体框架¶

整体思路分两阶段：自监督预训练 → 监督微调。

预训练阶段：将多个ICU数据集（如eICU + MIMIC-IV）池化，用时间序列预测任务做自监督学习
微调阶段：在未参与预训练的新数据集（如MIMIC-III）上做死亡率预测的二分类微调

关键设计¶

双轴Transformer（BAT）架构：BAT在时间轴和特征轴上分别做注意力计算，能同时捕获时序依赖和跨特征关系。输入嵌入由三部分组成：观测值（含缺失指示）、学习到的特征身份嵌入、连续时间位置编码，输出经过池化后与静态特征（年龄、性别等）拼接。BAT的核心优势是原生处理缺失值和不规则采样，无需均值填充即可建模信息性缺失（informative missingness）。
动态窗口采样策略：训练时动态构建观测窗口和预测窗口。对每个batch随机选取患者和时间索引，通过三重约束确保有效性：(a) 稀疏性检查——窗口内至少有一个观测值；(b) 最短观测长度\(L=12\)小时；(c) 预测窗口\(H=2\)小时可用。这种策略让模型暴露于不同时间段和上下文，增强泛化能力。
双任务预测头设计：BAT被改造为同时支持两种预测头——自监督预训练使用预测头输出\(\hat{\mathbf{X}}^{\text{for}} \in \mathbb{R}^{T^{\text{for}} \times D}\)，监督微调使用二分类头输出\(\hat{y} \in \{0, 1\}\)。微调时可选择仅微调分类头（head fine-tuning）或全模型微调（full fine-tuning）。

损失函数 / 训练策略¶

预训练损失：带掩码的MSE损失，仅在预测窗口中有观测值的位置计算误差：

\[\mathcal{L}^{\text{Pre}} = \frac{1}{\sum_{k=2}^{K} N_k} \sum_{k=2}^{K} \sum_{i=1}^{N_k} \left\| \mathbf{M}_i^{\text{for}} \odot (\hat{\mathbf{X}}_i^{\text{for}} - \mathbf{X}_i^{\text{for}}) \right\|_F^2\]

微调损失：标准二元交叉熵：

\[\mathcal{L}^{\text{Fine}} = -\frac{1}{N_1} \sum_{i=1}^{N_1} [y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i)]\]

预训练使用贝叶斯超参数优化（通过YAIB框架），学习率约3-8e-4，batch size 64，最多200个epoch，早停patience 10-15。使用加权损失处理类别不平衡。

实验关键数据¶

主实验¶

实验使用MIMIC-III、MIMIC-IV和eICU三个数据集，52个临床特征（4个静态+48个时变），按留一法进行预训练和微调。

微调数据集	数据量	BAT (全微调)	BAT (头微调)	BAT (从头)	Transformer (从头)
MIMIC-III	1000	36.24±1.63	33.98±1.32	27.63±2.23	21.34±4.58
MIMIC-III	5000	41.89±1.31	38.99±0.96	36.30±0.31	26.14±0.40
MIMIC-III	9000	43.57±0.94	40.14±0.70	37.09±1.06	27.13±0.41
MIMIC-IV	1000	28.98±0.85	26.97±1.71	26.12±1.95	13.06±1.56
MIMIC-IV	5000	38.10±1.36	31.31±1.17	34.97±1.03	18.00±1.11
eICU	1000	28.37±1.13	25.39±1.56	20.86±3.31	6.58±4.00
eICU	5000	33.89±0.49	29.09±0.62	30.13±1.37	14.41±0.42

指标为AUC-PR（%），预训练数据集为未包含微调数据集的其余两个

消融实验¶

配置	关键表现	说明
全模型微调 vs 仅头微调	全模型AUC-PR高2-6个点	全模型微调一致更优
预训练数据量273K vs 100K	大数据集预训练迁移更好	eICU+MIMIC-IV（273K）预训练效果最佳
<5000样本 vs ≥5000样本	小数据优势更明显	预训练在低数据场景优势最大
跨数据集直接推理	AUC-ROC下降1-5个点	证明直接迁移效果差

关键发现¶

预训练模型在所有>500样本的场景优于从头训练基线，在<5000样本时优势最显著
最大预训练数据集（MIMIC-IV+eICU，273K样本）产生最强迁移表示
仅微调分类头即可接近全模型微调的性能，表明预训练学到了可迁移的通用表示

亮点与洞察¶

首个开源可复现的ICU时间序列基础模型，所有代码和实验基于YAIB框架
巧妙地利用掩码损失处理不规则采样和稀疏数据，避免了对缺失值填充的依赖
在资源受限的临床场景中潜力巨大：标注数据少时预训练优势尤为突出

局限与展望¶

仅使用了三个美国ICU数据集，数据多样性有限
模型参数量仅约1M，与NLP/CV领域的基础模型相比规模极小
未探索跨领域（如气象、电力）时间序列数据对预训练的增益
在大标注数据场景（≥5000），从头训练的BAT有时也能匹敌预训练模型

评分¶

新颖性: ⭐⭐⭐ 方法框架较为直接（预训练+微调），但在ICU时间序列领域属首个开源工作
实验充分度: ⭐⭐⭐⭐ 三个数据集、多种数据量、多基线对比、交叉验证
写作质量: ⭐⭐⭐⭐ 结构清晰，附录详尽
价值: ⭐⭐⭐⭐ 开源可复现的ICU基础模型对社区有重要价值