MEIT: Multimodal Electrocardiogram Instruction Tuning on Large Language Models for Report Generation¶

会议: ACL2025
arXiv: 2403.04945
代码: AIoT-MLSys-Lab/MEIT
领域: multimodal_vlm
关键词: ECG report generation, instruction tuning, multimodal LLM, ECG-text alignment, medical AI

一句话总结¶

提出 MEIT 框架，通过多模态指令微调将 ECG 信号与 LLM 对齐，利用轻量级拼接融合策略（无需额外参数）在 LLM 的自注意力层中注入 ECG 嵌入，实现自动 ECG 报告生成，并建立涵盖质量评估、零样本迁移、噪声鲁棒性和专家对齐四项任务的综合基准。

研究背景与动机¶

心电图（ECG）是心脏疾病诊断的首要非侵入性工具。临床实践中，心脏科医生需要手动检查 ECG 记录并撰写详细诊断报告，过程耗时且依赖临床专业知识。现有 AI 研究大多聚焦 ECG 分类任务，自动报告生成仍不成熟。

与医学影像（如胸片）报告生成相比，ECG 报告生成有独特挑战： - 信号形态差异：ECG 是多导联时间序列信号而非图像，现有影像报告方法无法直接迁移 - 报告风格不同：ECG 报告以简洁、关键词驱动为主，与放射报告的详细解剖描述差异大 - 缺乏基准：此前没有针对 ECG 报告生成的综合评测基准

核心动机：利用 LLM 强大的语言生成能力和指令跟随能力，构建首个基于多模态指令微调的 ECG 报告生成框架，并建立标准化评测体系。

方法详解¶

整体框架¶

MEIT 包含三个阶段：数据构造 → 指令微调 → 推理生成。

数据构造：用 GPT-4 对种子提示词进行改写扩充，得到 256 条多样化指令；每条 ECG 记录-报告对随机匹配一条指令，按 <|user|>: {指令, ECG信号} <|assistant|>: {报告} </s> 格式组织
指令微调：ECG 通过编码器转为嵌入，与语言嵌入在 LLM 注意力层中融合；仅对 <assistant> 之后的 token 计算自回归损失（label masking）
推理：给定指令和 ECG 信号，自回归生成报告

关键设计1：轻量级 ECG 编码器¶

ECG 编码器由时序卷积块组成，每个块包含 1D 卷积层 + BatchNorm + ReLU + 平均池化。随后用非线性投影层 \(\mathcal{P}_e\) 将输出对齐到 LLM 的注意力头维度：

\[\mathbf{H}_e = \mathcal{P}_e(\mathcal{F}_e(\mathbf{X}_e))\]

其中 \(\mathbf{X}_e \in \mathbb{R}^{M \times T}\)（\(M\) 为导联数，\(T\) 为信号长度）。编码器采用随机初始化，轻量级设计使其可以快速学习 ECG 的时序模式。

关键设计2：拼接融合的 ECG-文本对齐¶

区别于 Flamingo（可训练交叉注意力）和 LLaVA（直接拼接输入）等方法，MEIT 提出在每层自注意力中将 ECG 嵌入作为前缀条件拼接：

\[\mathbf{K}_{m,j} = [\mathbf{K}_{e,j}, \mathbf{K}_{t,j}]^\top, \quad \mathbf{V}_{m,j} = [\mathbf{V}_{e,j}, \mathbf{V}_{t,j}]\]

\[\text{head}_j = \text{Softmax}\left(\frac{\mathbf{Q}_{t,j} \mathbf{K}_{m,j}}{\sqrt{D_h}}\right) \mathbf{V}_{m,j}\]

ECG 嵌入 \(\mathbf{H}_e\) 被复制到每个注意力头，与语言特征在序列维度上拼接。Key 和 Value 使用 LLM 原有的投影矩阵（共享参数），无需额外可训练参数。这种设计的优势： - 无新增参数，避免灾难性遗忘 - 通过因果注意力高效融合两种模态 - ECG 信号信息在每层都参与注意力计算，实现深度对齐

关键设计3：LoRA 高效微调¶

冻结 LLM 骨干，仅对所有线性层添加 LoRA 适配器。可训练参数仅包括 LoRA 参数和 ECG 编码器参数，大幅降低计算成本。

实验关键数据¶

实验设置¶

数据集：MIMIC-IV-ECG（80 万样本，美国数据）和 PTB-XL（2.2 万样本，欧洲数据），均为 12 导联、500Hz、10 秒 ECG
模型：2 个小模型（GPT2-Medium/Large）+ 10 个 LLM（GPT-Neo 到 LLaMA-3-Instruct）
训练：5 epoch，学习率 2e-5，batch size 64，A100 GPU

Table 1: MIMIC-IV-ECG 报告生成质量（部分关键指标）¶

模型	Size	BLEU-4	METEOR	ROUGE-L	CIDEr-D
GPT2-Medium	345M	0.425	0.551	0.523	3.70
GPT2-Large	774M	0.476	0.595	0.571	4.21
GPT-Neo	2.7B	0.489	0.727	0.689	4.81
GPT-J	6B	0.542	0.756	0.721	5.23
LLaMA-1	7B	0.543	0.761	0.724	5.26
Mistral-Instruct	7B	0.576	0.768	0.751	5.62
LLaMA-2-Instruct	7B	0.581	0.775	0.745	5.55
LLaMA-3-Instruct	8B	0.610	0.799	0.773	5.78

LLM 全面超越 SLM；经过通用指令预训练的模型（Instruct 系列）表现最佳。LLaMA-3-Instruct 在所有指标上领先。

Table 3: BERTScore 语义相似度¶

模型	MIMIC P/R/F1	PTB-XL P/R/F1
GPT2-Large	0.657/0.574/0.613	0.625/0.553/0.586
LLaMA-1	0.752/0.697/0.723	0.725/0.657/0.689
Mistral-Instruct	0.773/0.722/0.747	0.730/0.661/0.694
LLaMA-3-Instruct	0.798/0.745/0.771	0.745/0.682/0.712

LLaMA-3-Instruct 的 F1 较 GPT2-Large 提升 +0.158（MIMIC）和 +0.126（PTB-XL）。

Table 4: 人类专家对齐评估（1-5 分）¶

模型	医学术语准确性	逻辑一致性	完整性	诊断准确性
LLaMA-2-Instruct	4.25	4.11	3.72	3.60
LLaMA-3-Instruct	4.52	4.38	4.01	3.98

LLaMA-3 在诊断准确性上达到 3.98/5，接近人类专家水平。

Table 5: 融合方法消融（LLaMA-1 7B，MIMIC-IV-ECG）¶

方法	BLEU-4	METEOR	ROUGE-L	CIDEr-D
LLaVA 直接拼接	0.529	0.737	0.712	4.99
Flamingo 可训练交叉注意力	0.527	0.768	0.715	5.11
MEIT 拼接融合	0.543	0.761	0.724	5.26

拼接融合在无额外参数的条件下取得最优综合性能。

关键发现¶

模型规模效应：LLM 全面优于 SLM（METEOR 提升 0.13-0.20），但从 7B 到 70B 的边际增益很小（F1 仅提升 0.01-0.02），说明数据规模可能比模型规模更重要
指令预训练的迁移优势：经过通用指令微调的 LLM（Instruct 系列）在 ECG 报告生成上一致优于基础版，表明通用指令跟随能力可迁移到医学领域
零样本跨域能力：在 MIMIC（美国）上训练后直接在 PTB-XL（欧洲）上测试，虽有性能下降，但远优于无指令微调的零样本结果，证明 ECG 指令微调赋予了有效的跨域泛化能力
噪声鲁棒性：SNR 降低导致所有模型性能下降，但 Mistral 在 ROUGE-L 和 METEOR 上保持了较强的抗噪能力
指令微调的必要性：消融实验显示，去掉指令微调后所有指标显著下降，尤其 Mistral 受影响最大

亮点与洞察¶

首个 LLM 驱动的 ECG 报告生成框架：填补了用 LLM 做 ECG 报告生成的空白，直接处理原始信号而非转文本再处理
零额外参数的融合策略：利用 LLM 自身的 KV 投影矩阵完成 ECG-文本对齐，避免 Flamingo/Q-Former 的参数膨胀和训练复杂度
四任务综合基准：质量、零样本、鲁棒性、专家对齐，构成迄今最全面的 ECG 报告评测体系
超 80 万样本训练：在 MIMIC-IV-ECG（80 万对）上的大规模实验验证了方法的可扩展性
临床实用性：LLaMA-3 的诊断准确性达 3.98/5，有潜力辅助真实临床场景

局限性¶

生成不可控：LLM 生成过程不完全可解释，无法保证医学内容的安全性和一致性
缺乏外部知识整合：未利用临床指南、医学教科书等专家验证的知识库来约束生成质量
数据依赖性：PTB-XL 上性能明显低于 MIMIC，说明数据规模对报告生成质量影响大
ECG 编码器较简单：仅用时序卷积，未探索 Transformer、预训练 ECG 编码器等更强表示学习
评测局限：NLG 指标（BLEU/ROUGE）对医学报告的临床准确性衡量有限，专家评估仅用 GPT-4o 代理

评分¶

新颖性: ⭐⭐⭐⭐ — 首个将多模态指令微调系统性应用于 ECG 报告生成的工作，融合策略设计简洁有效
实验充分度: ⭐⭐⭐⭐⭐ — 12 个模型 × 2 数据集 × 4 评测任务 × 10 指标，消融和扩展性分析完善
写作质量: ⭐⭐⭐⭐ — 结构清晰，实验组织系统，但 LaTeX 公式排版较密集
价值: ⭐⭐⭐⭐ — 建立了 ECG 报告生成的标准化研究框架，对医学信号 + LLM 方向有实际推动价值