Benchmarking ECG FMs: A Reality Check Across Clinical Tasks¶

会议: ICLR 2026
arXiv: 2509.25095
代码: https://github.com/AI4HealthUOL/ecg-fm-benchmarking
领域: medical_imaging / ECG基础模型
关键词: ECG, 基础模型, 结构化状态空间模型, 心电图, 基准评测

一句话总结¶

对8个ECG基础模型在12个数据集、26个临床任务上进行"现实检验"式全面基准评测，发现紧凑的结构化状态空间模型（SSM）ECG-CPC在7个任务类别中的5个上超越了大规模Transformer，证明架构设计比模型规模更重要。

研究背景与动机¶

领域现状：12导联心电图（ECG）是最广泛使用的心脏诊断工具。近年来多个ECG基础模型（FM）相继发布，包括基于CNN的ECGFounder、基于Transformer的ECG-JEPA/ST-MEM/HuBERT-ECG/ECG-FM，以及基于对比学习的MERL/ECGFM-KED等。这些模型使用了不同的预训练策略（监督、自监督、对比学习）和不同规模的数据集。
现有痛点：
已有研究往往只在有限的数据集或单一任务类别上评估，无法得出可泛化的结论
对比baseline常常选择较弱的模型，导致FM的优势被高估
缺少对"模型规模 vs 架构选择"的系统性分析——更大的模型是否一定更好？
核心矛盾：FM领域默认"规模即质量"的假设是否在ECG领域成立？不同架构（CNN/Transformer/SSM）在不同临床任务上的泛化能力差异有多大？
本文要解决的问题：三个核心研究问题——(1) 哪种架构在多样化ECG任务上泛化最好？(2) FM如何随标注数据量缩放？(3) 是什么导致了不同模型间的性能差异？
核心idea：搭建覆盖7个任务类别的全面评测框架，并引入自训练的轻量级SSM模型ECG-CPC作为对照，揭示ECG FM的真实能力边界。

方法详解¶

整体框架¶

评测pipeline：8个预训练FM + 2个从头训练的监督baseline → 12个公开数据集 → 26个临床任务（分类+回归）→ 在 fine-tuning、frozen、linear 三种评估模式下全面评测 → 附加标注效率缩放分析和表示相似性分析（CKA）。

关键设计¶

评测模型选择（8 FM + 2 baseline）:
CNN系：ECGFounder（RegNet, 33.8M参数, 监督预训练）、MERL（ResNet18, 4.6M, 对比学习）、ECGFM-KED（ResNet, 9.7M, 对比学习）
Transformer系：ECG-JEPA（87.2M, JEPA）、ST-MEM（90.3M, MAE）、HuBERT-ECG（97.2M, MLM）、ECG-FM（93.9M, MLM+对比）
SSM系：ECG-CPC（S4骨干, 3.8M参数, CPC预训练）——本文新训练的模型
监督baseline：Net1D（33.8M, CNN）、S4（2.2M, SSM, 从头训练）
设计动机：覆盖三大架构家族和主要预训练策略，ECG-CPC的参数量仅为最大Transformer的1/25
7类临床任务的全面覆盖:
成人ECG解释（9个数据集11个任务）、儿科ECG解释、心脏结构与功能（超声心动图预测）、心脏/非心脏出院诊断、急性护理预测（恶化/死亡率/ICU入院）、患者特征预测（年龄/性别/生物指标/实验室值）
共计1650个回归和分类target标签
设计动机：不同任务类别需要模型捕獲不同层面的ECG信息，仅在一类任务上评估会产生误导
评估方法论:
Fine-tuning：全模型微调，使用层级学习率（backbone比预测头低10-100倍）
Frozen：冻结encoder，使用可学习的query-attention head池化
Linear：冻结encoder，使用线性head
使用2.5秒片段训练+推理时4片段平均，而非完整10秒录音
Bootstrap置信区间（n=1000）进行统计显著性检验
分类指标：macro AUROC；回归指标：z-normalized MAE
ECG-CPC模型:
基于S4结构化状态空间模型骨干
使用对比预测编码（CPC）进行自监督预训练
在HEEDB数据集（1070万样本）上训练
仅3.8M参数，用单块NVIDIA L40 GPU训练三周
设计动机：验证"小而精"的假设——好的归纳偏置（S4的长程记忆、光谱滤波、全局参数化卷积）比参数规模更重要

标注效率分析¶

在EchoNext数据集上做受控缩放实验：训练集按2的幂次缩减到1/128，拟合缩放曲线 \(CN^{-\alpha} + L_0\)。计算标注效率比 \(r = N^*/N\)，即FM达到监督baseline同等性能所需的数据比例。

实验关键数据¶

主实验：Fine-tuning模式下跨7类任务的排名¶

任务类别	第1名	第2名	第3名	S4 baseline
成人ECG解释	ECGFounder/ECG-JEPA/ECG-CPC	ECG-FM	MERL	被超越
儿科ECG解释	ECG-JEPA	ECGFounder	ST-MEM	第6
心脏结构功能	ECG-CPC	ECGFounder	ECG-JEPA	第6
心脏/非心脏诊断	ECG-CPC	ECG-FM	S4	第3
急性护理预测	ECG-CPC/ECG-FM	ECGFounder	ECG-JEPA	未被显著超越
患者特征	ECG-CPC (5/6任务第1)	MERL/ECG-FM	-	被超越3/6

ECG-CPC在7类中的5类排名第一，尽管参数量仅3.8M——不到最大Transformer的1/25。

标注效率实验¶

模型	标注效率比r (N=250-1000)	含义
ECG-JEPA	0.11-0.42	最高标注效率（低数据量时最优）
ECG-CPC	0.21-0.40	接近JEPA，且性能上限更高
ECGFounder	0.30-0.62	标注效率较低
总体	3.3-9×	FM相比监督baseline的标注效率提升

关键发现：ECG-JEPA学习速度快但性能上限低（"快但矮"），ECG-CPC学习稍慢但上限更高（"慢但高"）——选择应依据数据量：<1000样本选ECG-JEPA，>1000选ECG-CPC。

表示相似性分析（CKA）¶

ECG-CPC的表示演化最清晰、最结构化：早期CNN层冗余，后续S4层逐层特化
ECGFounder的中层高度冗余（S0-S4层几乎相同），仅最终层特化
ECG-JEPA的中间Transformer block几乎相同（Blk1-10），仅最终block差异化
性能相近的模型学到了截然不同的内部表示，说明通往有效ECG表示的路径不止一条

关键发现¶

SSM超越Transformer的核心原因：S4的归纳偏置（稳定长程记忆、光谱滤波、全局参数化卷积）天然匹配ECG信号的结构，无需大量参数即可高效学习
层级学习率对Transformer/SSM至关重要：某些模型（HuBERT-ECG, ECG-FM）不用层级学习率甚至无法训练
2.5秒裁剪+测试时平均优于直接使用完整10秒录音
没有一个模型在所有任务上一致最优，但ECG-CPC最接近这一目标

亮点与洞察¶

"架构 > 规模"的有力证据：ECG-CPC以3.8M参数（约1/25的Transformer参数量）在大多数任务上超越90+M参数的Transformer模型。这挑战了FM领域"越大越好"的假设，表明对于ECG这类结构化时间序列，好的归纳偏置远比参数规模重要。
缩放曲线的"斜率 vs 上限"分析：将FM的标注效率分解为"学习速度"和"性能上限"两个独立维度，提供了依据数据量选择模型的实用指南——这个分析框架可以推广到其他FM基准评测。
CKA揭示的"殊途同归"现象：性能相近的模型内部表示差异巨大，说明当前仅基于任务性能的评估可能不足以全面评价FM的质量。
极低资源训练的可能性：ECG-CPC仅用单GPU训练三周即达到顶级性能，为资源有限的医学AI实验室提供了实用路径。

局限性 / 可改进方向¶

仅限域内评测：所有测试均为域内测试，缺少跨设备/跨人群的域外泛化评估（虽然作者承认标签不兼容是主要困难）
多任务训练的混淆：部分任务使用多任务联合训练以节约计算，这可能使某些任务的性能高于或低于专门训练的模型
预训练数据不统一：各FM在不同数据集上预训练，无法完全剥离预训练数据的影响；虽然理想的做法是在统一数据集上重训练所有模型，但计算成本太高
缺少单导联/可穿戴设备评估：所有评估基于12导联标准ECG，而可穿戴设备通常只有单导联
改进方向：结合token级和序列级预训练目标（如ECG-FM的做法）、统一预训练数据集的受控消融、扩展到域外泛化评估

评分¶

新颖性: ⭐⭐⭐⭐ 评测框架全面系统，ECG-CPC虽非全新架构但其出色表现提供了重要洞察
实验充分度: ⭐⭐⭐⭐⭐ 8个FM+2个baseline、12个数据集、26个任务、3种评估模式+缩放分析+CKA，极为充分
写作质量: ⭐⭐⭐⭐⭐ 结构清晰、分析深入、结论明确且有实用指导价值
价值: ⭐⭐⭐⭐⭐ 对ECG FM社区有重要参考价值，"架构>规模"的发现对更广泛的医学AI社区也有启示