Benchmarking ECG FMs: A Reality Check Across Clinical Tasks¶
会议: ICLR 2026
arXiv: 2509.25095
代码: https://github.com/AI4HealthUOL/ecg-fm-benchmarking
领域: medical_imaging / ECG基础模型
关键词: ECG, 基础模型, 结构化状态空间模型, 心电图, 基准评测
一句话总结¶
对8个ECG基础模型在12个数据集、26个临床任务上进行"现实检验"式全面基准评测,发现紧凑的结构化状态空间模型(SSM)ECG-CPC在7个任务类别中的5个上超越了大规模Transformer,证明架构设计比模型规模更重要。
研究背景与动机¶
- 领域现状:12导联心电图(ECG)是最广泛使用的心脏诊断工具。近年来多个ECG基础模型(FM)相继发布,包括基于CNN的ECGFounder、基于Transformer的ECG-JEPA/ST-MEM/HuBERT-ECG/ECG-FM,以及基于对比学习的MERL/ECGFM-KED等。这些模型使用了不同的预训练策略(监督、自监督、对比学习)和不同规模的数据集。
- 现有痛点:
- 已有研究往往只在有限的数据集或单一任务类别上评估,无法得出可泛化的结论
- 对比baseline常常选择较弱的模型,导致FM的优势被高估
- 缺少对"模型规模 vs 架构选择"的系统性分析——更大的模型是否一定更好?
- 核心矛盾:FM领域默认"规模即质量"的假设是否在ECG领域成立?不同架构(CNN/Transformer/SSM)在不同临床任务上的泛化能力差异有多大?
- 本文要解决的问题:三个核心研究问题——(1) 哪种架构在多样化ECG任务上泛化最好?(2) FM如何随标注数据量缩放?(3) 是什么导致了不同模型间的性能差异?
- 核心idea:搭建覆盖7个任务类别的全面评测框架,并引入自训练的轻量级SSM模型ECG-CPC作为对照,揭示ECG FM的真实能力边界。
方法详解¶
整体框架¶
评测pipeline:8个预训练FM + 2个从头训练的监督baseline → 12个公开数据集 → 26个临床任务(分类+回归)→ 在 fine-tuning、frozen、linear 三种评估模式下全面评测 → 附加标注效率缩放分析和表示相似性分析(CKA)。
关键设计¶
- 评测模型选择(8 FM + 2 baseline):
- CNN系:ECGFounder(RegNet, 33.8M参数, 监督预训练)、MERL(ResNet18, 4.6M, 对比学习)、ECGFM-KED(ResNet, 9.7M, 对比学习)
- Transformer系:ECG-JEPA(87.2M, JEPA)、ST-MEM(90.3M, MAE)、HuBERT-ECG(97.2M, MLM)、ECG-FM(93.9M, MLM+对比)
- SSM系:ECG-CPC(S4骨干, 3.8M参数, CPC预训练)——本文新训练的模型
- 监督baseline:Net1D(33.8M, CNN)、S4(2.2M, SSM, 从头训练)
-
设计动机:覆盖三大架构家族和主要预训练策略,ECG-CPC的参数量仅为最大Transformer的1/25
-
7类临床任务的全面覆盖:
- 成人ECG解释(9个数据集11个任务)、儿科ECG解释、心脏结构与功能(超声心动图预测)、心脏/非心脏出院诊断、急性护理预测(恶化/死亡率/ICU入院)、患者特征预测(年龄/性别/生物指标/实验室值)
- 共计1650个回归和分类target标签
-
设计动机:不同任务类别需要模型捕獲不同层面的ECG信息,仅在一类任务上评估会产生误导
-
评估方法论:
- Fine-tuning:全模型微调,使用层级学习率(backbone比预测头低10-100倍)
- Frozen:冻结encoder,使用可学习的query-attention head池化
- Linear:冻结encoder,使用线性head
- 使用2.5秒片段训练+推理时4片段平均,而非完整10秒录音
- Bootstrap置信区间(n=1000)进行统计显著性检验
-
分类指标:macro AUROC;回归指标:z-normalized MAE
-
ECG-CPC模型:
- 基于S4结构化状态空间模型骨干
- 使用对比预测编码(CPC)进行自监督预训练
- 在HEEDB数据集(1070万样本)上训练
- 仅3.8M参数,用单块NVIDIA L40 GPU训练三周
- 设计动机:验证"小而精"的假设——好的归纳偏置(S4的长程记忆、光谱滤波、全局参数化卷积)比参数规模更重要
标注效率分析¶
在EchoNext数据集上做受控缩放实验:训练集按2的幂次缩减到1/128,拟合缩放曲线 \(CN^{-\alpha} + L_0\)。计算标注效率比 \(r = N^*/N\),即FM达到监督baseline同等性能所需的数据比例。
实验关键数据¶
主实验:Fine-tuning模式下跨7类任务的排名¶
| 任务类别 | 第1名 | 第2名 | 第3名 | S4 baseline |
|---|---|---|---|---|
| 成人ECG解释 | ECGFounder/ECG-JEPA/ECG-CPC | ECG-FM | MERL | 被超越 |
| 儿科ECG解释 | ECG-JEPA | ECGFounder | ST-MEM | 第6 |
| 心脏结构功能 | ECG-CPC | ECGFounder | ECG-JEPA | 第6 |
| 心脏/非心脏诊断 | ECG-CPC | ECG-FM | S4 | 第3 |
| 急性护理预测 | ECG-CPC/ECG-FM | ECGFounder | ECG-JEPA | 未被显著超越 |
| 患者特征 | ECG-CPC (5/6任务第1) | MERL/ECG-FM | - | 被超越3/6 |
ECG-CPC在7类中的5类排名第一,尽管参数量仅3.8M——不到最大Transformer的1/25。
标注效率实验¶
| 模型 | 标注效率比r (N=250-1000) | 含义 |
|---|---|---|
| ECG-JEPA | 0.11-0.42 | 最高标注效率(低数据量时最优) |
| ECG-CPC | 0.21-0.40 | 接近JEPA,且性能上限更高 |
| ECGFounder | 0.30-0.62 | 标注效率较低 |
| 总体 | 3.3-9× | FM相比监督baseline的标注效率提升 |
关键发现:ECG-JEPA学习速度快但性能上限低("快但矮"),ECG-CPC学习稍慢但上限更高("慢但高")——选择应依据数据量:<1000样本选ECG-JEPA,>1000选ECG-CPC。
表示相似性分析(CKA)¶
- ECG-CPC的表示演化最清晰、最结构化:早期CNN层冗余,后续S4层逐层特化
- ECGFounder的中层高度冗余(S0-S4层几乎相同),仅最终层特化
- ECG-JEPA的中间Transformer block几乎相同(Blk1-10),仅最终block差异化
- 性能相近的模型学到了截然不同的内部表示,说明通往有效ECG表示的路径不止一条
关键发现¶
- SSM超越Transformer的核心原因:S4的归纳偏置(稳定长程记忆、光谱滤波、全局参数化卷积)天然匹配ECG信号的结构,无需大量参数即可高效学习
- 层级学习率对Transformer/SSM至关重要:某些模型(HuBERT-ECG, ECG-FM)不用层级学习率甚至无法训练
- 2.5秒裁剪+测试时平均优于直接使用完整10秒录音
- 没有一个模型在所有任务上一致最优,但ECG-CPC最接近这一目标
亮点与洞察¶
- "架构 > 规模"的有力证据:ECG-CPC以3.8M参数(约1/25的Transformer参数量)在大多数任务上超越90+M参数的Transformer模型。这挑战了FM领域"越大越好"的假设,表明对于ECG这类结构化时间序列,好的归纳偏置远比参数规模重要。
- 缩放曲线的"斜率 vs 上限"分析:将FM的标注效率分解为"学习速度"和"性能上限"两个独立维度,提供了依据数据量选择模型的实用指南——这个分析框架可以推广到其他FM基准评测。
- CKA揭示的"殊途同归"现象:性能相近的模型内部表示差异巨大,说明当前仅基于任务性能的评估可能不足以全面评价FM的质量。
- 极低资源训练的可能性:ECG-CPC仅用单GPU训练三周即达到顶级性能,为资源有限的医学AI实验室提供了实用路径。
局限性 / 可改进方向¶
- 仅限域内评测:所有测试均为域内测试,缺少跨设备/跨人群的域外泛化评估(虽然作者承认标签不兼容是主要困难)
- 多任务训练的混淆:部分任务使用多任务联合训练以节约计算,这可能使某些任务的性能高于或低于专门训练的模型
- 预训练数据不统一:各FM在不同数据集上预训练,无法完全剥离预训练数据的影响;虽然理想的做法是在统一数据集上重训练所有模型,但计算成本太高
- 缺少单导联/可穿戴设备评估:所有评估基于12导联标准ECG,而可穿戴设备通常只有单导联
- 改进方向:结合token级和序列级预训练目标(如ECG-FM的做法)、统一预训练数据集的受控消融、扩展到域外泛化评估
相关工作与启发¶
- vs ECGFounder (Li et al., 2025):ECGFounder用RegNet+监督预训练在成人ECG解释上表现优异,但在非诊断任务上不及ECG-CPC,可能因为监督标签集与下游任务的覆盖不足
- vs ECG-JEPA (Kim, 2024):JEPA的联合嵌入预测架构提供了最佳标注效率(尤其小样本),但性能上限低于CPC方法的ECG-CPC
- vs Mamba/现代SSM (Gu & Dao, 2024):作者内部实验表明,新型SSM如Mamba在连续医学信号上不一定优于S4,S4对ECG的归纳偏置更合适
- 启发:SSM在医学时间序列上的潜力可能被低估,值得在其他生理信号(EEG、PPG)上进一步探索
评分¶
- 新颖性: ⭐⭐⭐⭐ 评测框架全面系统,ECG-CPC虽非全新架构但其出色表现提供了重要洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 8个FM+2个baseline、12个数据集、26个任务、3种评估模式+缩放分析+CKA,极为充分
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、分析深入、结论明确且有实用指导价值
- 价值: ⭐⭐⭐⭐⭐ 对ECG FM社区有重要参考价值,"架构>规模"的发现对更广泛的医学AI社区也有启示