跳转至

Benchmarking ECG FMs: A Reality Check Across Clinical Tasks

会议: ICLR 2026
arXiv: 2509.25095
代码: https://github.com/AI4HealthUOL/ecg-fm-benchmarking
领域: medical_imaging / ECG基础模型
关键词: ECG, 基础模型, 结构化状态空间模型, 心电图, 基准评测

一句话总结

对8个ECG基础模型在12个数据集、26个临床任务上进行"现实检验"式全面基准评测,发现紧凑的结构化状态空间模型(SSM)ECG-CPC在7个任务类别中的5个上超越了大规模Transformer,证明架构设计比模型规模更重要。

研究背景与动机

  1. 领域现状:12导联心电图(ECG)是最广泛使用的心脏诊断工具。近年来多个ECG基础模型(FM)相继发布,包括基于CNN的ECGFounder、基于Transformer的ECG-JEPA/ST-MEM/HuBERT-ECG/ECG-FM,以及基于对比学习的MERL/ECGFM-KED等。这些模型使用了不同的预训练策略(监督、自监督、对比学习)和不同规模的数据集。
  2. 现有痛点
  3. 已有研究往往只在有限的数据集或单一任务类别上评估,无法得出可泛化的结论
  4. 对比baseline常常选择较弱的模型,导致FM的优势被高估
  5. 缺少对"模型规模 vs 架构选择"的系统性分析——更大的模型是否一定更好?
  6. 核心矛盾:FM领域默认"规模即质量"的假设是否在ECG领域成立?不同架构(CNN/Transformer/SSM)在不同临床任务上的泛化能力差异有多大?
  7. 本文要解决的问题:三个核心研究问题——(1) 哪种架构在多样化ECG任务上泛化最好?(2) FM如何随标注数据量缩放?(3) 是什么导致了不同模型间的性能差异?
  8. 核心idea:搭建覆盖7个任务类别的全面评测框架,并引入自训练的轻量级SSM模型ECG-CPC作为对照,揭示ECG FM的真实能力边界。

方法详解

整体框架

评测pipeline:8个预训练FM + 2个从头训练的监督baseline → 12个公开数据集 → 26个临床任务(分类+回归)→ 在 fine-tuning、frozen、linear 三种评估模式下全面评测 → 附加标注效率缩放分析和表示相似性分析(CKA)。

关键设计

  1. 评测模型选择(8 FM + 2 baseline):
  2. CNN系:ECGFounder(RegNet, 33.8M参数, 监督预训练)、MERL(ResNet18, 4.6M, 对比学习)、ECGFM-KED(ResNet, 9.7M, 对比学习)
  3. Transformer系:ECG-JEPA(87.2M, JEPA)、ST-MEM(90.3M, MAE)、HuBERT-ECG(97.2M, MLM)、ECG-FM(93.9M, MLM+对比)
  4. SSM系:ECG-CPC(S4骨干, 3.8M参数, CPC预训练)——本文新训练的模型
  5. 监督baseline:Net1D(33.8M, CNN)、S4(2.2M, SSM, 从头训练)
  6. 设计动机:覆盖三大架构家族和主要预训练策略,ECG-CPC的参数量仅为最大Transformer的1/25

  7. 7类临床任务的全面覆盖:

  8. 成人ECG解释(9个数据集11个任务)、儿科ECG解释、心脏结构与功能(超声心动图预测)、心脏/非心脏出院诊断、急性护理预测(恶化/死亡率/ICU入院)、患者特征预测(年龄/性别/生物指标/实验室值)
  9. 共计1650个回归和分类target标签
  10. 设计动机:不同任务类别需要模型捕獲不同层面的ECG信息,仅在一类任务上评估会产生误导

  11. 评估方法论:

  12. Fine-tuning:全模型微调,使用层级学习率(backbone比预测头低10-100倍)
  13. Frozen:冻结encoder,使用可学习的query-attention head池化
  14. Linear:冻结encoder,使用线性head
  15. 使用2.5秒片段训练+推理时4片段平均,而非完整10秒录音
  16. Bootstrap置信区间(n=1000)进行统计显著性检验
  17. 分类指标:macro AUROC;回归指标:z-normalized MAE

  18. ECG-CPC模型:

  19. 基于S4结构化状态空间模型骨干
  20. 使用对比预测编码(CPC)进行自监督预训练
  21. 在HEEDB数据集(1070万样本)上训练
  22. 仅3.8M参数,用单块NVIDIA L40 GPU训练三周
  23. 设计动机:验证"小而精"的假设——好的归纳偏置(S4的长程记忆、光谱滤波、全局参数化卷积)比参数规模更重要

标注效率分析

在EchoNext数据集上做受控缩放实验:训练集按2的幂次缩减到1/128,拟合缩放曲线 \(CN^{-\alpha} + L_0\)。计算标注效率比 \(r = N^*/N\),即FM达到监督baseline同等性能所需的数据比例。

实验关键数据

主实验:Fine-tuning模式下跨7类任务的排名

任务类别 第1名 第2名 第3名 S4 baseline
成人ECG解释 ECGFounder/ECG-JEPA/ECG-CPC ECG-FM MERL 被超越
儿科ECG解释 ECG-JEPA ECGFounder ST-MEM 第6
心脏结构功能 ECG-CPC ECGFounder ECG-JEPA 第6
心脏/非心脏诊断 ECG-CPC ECG-FM S4 第3
急性护理预测 ECG-CPC/ECG-FM ECGFounder ECG-JEPA 未被显著超越
患者特征 ECG-CPC (5/6任务第1) MERL/ECG-FM - 被超越3/6

ECG-CPC在7类中的5类排名第一,尽管参数量仅3.8M——不到最大Transformer的1/25。

标注效率实验

模型 标注效率比r (N=250-1000) 含义
ECG-JEPA 0.11-0.42 最高标注效率(低数据量时最优)
ECG-CPC 0.21-0.40 接近JEPA,且性能上限更高
ECGFounder 0.30-0.62 标注效率较低
总体 3.3-9× FM相比监督baseline的标注效率提升

关键发现:ECG-JEPA学习速度快但性能上限低("快但矮"),ECG-CPC学习稍慢但上限更高("慢但高")——选择应依据数据量:<1000样本选ECG-JEPA,>1000选ECG-CPC。

表示相似性分析(CKA)

  • ECG-CPC的表示演化最清晰、最结构化:早期CNN层冗余,后续S4层逐层特化
  • ECGFounder的中层高度冗余(S0-S4层几乎相同),仅最终层特化
  • ECG-JEPA的中间Transformer block几乎相同(Blk1-10),仅最终block差异化
  • 性能相近的模型学到了截然不同的内部表示,说明通往有效ECG表示的路径不止一条

关键发现

  • SSM超越Transformer的核心原因:S4的归纳偏置(稳定长程记忆、光谱滤波、全局参数化卷积)天然匹配ECG信号的结构,无需大量参数即可高效学习
  • 层级学习率对Transformer/SSM至关重要:某些模型(HuBERT-ECG, ECG-FM)不用层级学习率甚至无法训练
  • 2.5秒裁剪+测试时平均优于直接使用完整10秒录音
  • 没有一个模型在所有任务上一致最优,但ECG-CPC最接近这一目标

亮点与洞察

  • "架构 > 规模"的有力证据:ECG-CPC以3.8M参数(约1/25的Transformer参数量)在大多数任务上超越90+M参数的Transformer模型。这挑战了FM领域"越大越好"的假设,表明对于ECG这类结构化时间序列,好的归纳偏置远比参数规模重要。
  • 缩放曲线的"斜率 vs 上限"分析:将FM的标注效率分解为"学习速度"和"性能上限"两个独立维度,提供了依据数据量选择模型的实用指南——这个分析框架可以推广到其他FM基准评测。
  • CKA揭示的"殊途同归"现象:性能相近的模型内部表示差异巨大,说明当前仅基于任务性能的评估可能不足以全面评价FM的质量。
  • 极低资源训练的可能性:ECG-CPC仅用单GPU训练三周即达到顶级性能,为资源有限的医学AI实验室提供了实用路径。

局限性 / 可改进方向

  • 仅限域内评测:所有测试均为域内测试,缺少跨设备/跨人群的域外泛化评估(虽然作者承认标签不兼容是主要困难)
  • 多任务训练的混淆:部分任务使用多任务联合训练以节约计算,这可能使某些任务的性能高于或低于专门训练的模型
  • 预训练数据不统一:各FM在不同数据集上预训练,无法完全剥离预训练数据的影响;虽然理想的做法是在统一数据集上重训练所有模型,但计算成本太高
  • 缺少单导联/可穿戴设备评估:所有评估基于12导联标准ECG,而可穿戴设备通常只有单导联
  • 改进方向:结合token级和序列级预训练目标(如ECG-FM的做法)、统一预训练数据集的受控消融、扩展到域外泛化评估

相关工作与启发

  • vs ECGFounder (Li et al., 2025):ECGFounder用RegNet+监督预训练在成人ECG解释上表现优异,但在非诊断任务上不及ECG-CPC,可能因为监督标签集与下游任务的覆盖不足
  • vs ECG-JEPA (Kim, 2024):JEPA的联合嵌入预测架构提供了最佳标注效率(尤其小样本),但性能上限低于CPC方法的ECG-CPC
  • vs Mamba/现代SSM (Gu & Dao, 2024):作者内部实验表明,新型SSM如Mamba在连续医学信号上不一定优于S4,S4对ECG的归纳偏置更合适
  • 启发:SSM在医学时间序列上的潜力可能被低估,值得在其他生理信号(EEG、PPG)上进一步探索

评分

  • 新颖性: ⭐⭐⭐⭐ 评测框架全面系统,ECG-CPC虽非全新架构但其出色表现提供了重要洞察
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个FM+2个baseline、12个数据集、26个任务、3种评估模式+缩放分析+CKA,极为充分
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、分析深入、结论明确且有实用指导价值
  • 价值: ⭐⭐⭐⭐⭐ 对ECG FM社区有重要参考价值,"架构>规模"的发现对更广泛的医学AI社区也有启示