Automated Structured Radiology Report Generation¶

会议: ACL 2025
arXiv: 2505.24223
代码: huggingface.co/StanfordAIMI
领域: 医学图像
关键词: 放射学报告生成, 结构化报告, 疾病分类, 胸部X光, 评估指标

一句话总结¶

提出结构化放射学报告生成（SRRG）新任务，利用LLM将自由文本报告重构为标准化格式，同时引入55标签的SRR-BERT疾病分类模型和F1-SRR-BERT评估指标，解决传统报告生成中风格多样导致的生成与评估困难。

研究背景与动机¶

自动化胸部X光（CXR）报告生成是一项重要的医学NLG任务，能够减轻放射科医生的工作负担。目前主要的两个数据集MIMIC-CXR和CheXpert Plus均由自由文本报告组成，报告风格高度可变且缺乏结构化，这带来了两方面的挑战：

生成困难：自由文本报告的多样性使模型难以产生一致、临床有意义的报告

评估困难：现有评估指标（BLEU、ROUGE等NLG指标和F1-RadGraph等临床指标）难以准确捕捉放射学解读的细微差异，因为同一发现可能有多种不同的表述方式

与此同时，临床上也一直有呼吁使用更一致、结构化的放射学报告。这一现实需求和技术困境共同促使作者提出SRRG任务——将自由文本报告重构为标准化格式，并配套更精确的评估方法。

方法详解¶

整体框架¶

SRRG的工作包含三个核心贡献：(1) 定义结构化报告规范并利用LLM创建大规模结构化报告数据集；(2) 训练SRR-BERT细粒度疾病分类模型；(3) 提出F1-SRR-BERT评估指标。整体形成了从数据、模型到评估的完整体系。

关键设计¶

结构化报告规范（Desiderata）: 定义了严格的报告格式标准：
- 报告由Exam Type、History、Technique、Comparison、Findings、Impression六个部分组成
- Findings部分按预定义解剖学标题组织：Lungs and Airways、Pleura、Cardiovascular、Hila and Mediastinum、Tubes/Catheters/Support Devices、Musculoskeletal and Chest Wall、Abdominal、Other
- Impression部分按临床重要性从高到低编号列出关键发现
- 严格排除历史比较、可识别信息（日期、姓名、机构等），仅保留患者性别和年龄
数据集构建:
- 利用GPT-4 Turbo将MIMIC-CXR和CheXpert Plus的自由文本报告重构为结构化格式
- SRRG-Findings包含184,542条（训练集181,874）
- SRRG-Impression包含409,927条（训练集405,972）
- 由5位执业放射科医生对464份报告进行人工审阅验证
- 两个数据集的映射分别是：X光→Findings 和 X光→Impression
SRR-BERT疾病分类模型（55标签）:
- 在CheXbert的14标签基础上扩展到55个疾病标签，覆盖更精细的肺部、胸膜、心脏、纵隔、肌骨及腹部发现
- 每个发现映射到0个、1个或多个疾病标签
- 每个疾病赋予三种状态：Present（存在）、Absent（不存在）、Uncertain（不确定）
- 数据标注采用三模型投票：GPT-4 Turbo、GPT-4 Turbo 1106 Preview和GPT-4o分别标注，取至少两个模型一致的结果
- 基于CXR-BERT微调，共标注1,506,158条有效语句
F1-SRR-BERT评估指标:
- 利用SRR-BERT对生成报告和参考报告分别进行疾病预测，计算F1分数
- 提供两个粒度：leaves级（55标签最细粒度）和upper级（25个更粗的类别）
- 支持aligned（按顺序对齐评估）和unaligned（按集合方式评估）两种模式
- aligned模式可评估模型是否按临床重要性排序

损失函数 / 训练策略¶

SRR-BERT使用CXR-BERT作为预训练骨干，在StructUtterances数据集上进行弱监督微调。标注数据包含1,506,158条语句和1,782,983个标签。训练分为四种配置：leaves、upper、leaves with statuses、upper with statuses，分别训练独立模型。

实验关键数据¶

主实验¶

疾病分类性能：

模型配置	Micro F1	Macro F1	Weighted F1
SRR-BERT (Leaves)	0.84	0.55	0.82
SRR-BERT (Upper)	0.84	0.65	0.83
SRR-BERT (Leaves+Statuses)	0.80	0.28	0.77
SRR-BERT (Upper+Statuses)	0.80	0.38	0.78

与CheXbert对比（映射到14类）：

输入类型	CheXbert F1	SRR-BERT F1	说明
结构化语句 (Leaves映射)	0.65	0.84	SRR-BERT +19%
结构化语句 (Upper映射)	0.50	0.86	SRR-BERT +36%
完整报告 (Upper映射)	0.56	0.70	SRR-BERT仍优

报告生成模型基准（SRRG-Impression unaligned, Test）：

模型	BLEU	ROUGE-L	F1-RadGraph	F1-SRR-BERT
CheXpert-Plus	14.84	28.01	22.14	46.48
MAIRA-2	8.12	27.82	20.37	50.36
CheXagent	6.95	27.18	19.70	50.63
RaDialog	3.32	21.59	12.32	39.22

消融实验¶

配置	关键指标	说明
Unaligned评估	BLEU 14.84	不考虑顺序的宽松评估
Aligned评估	BLEU 3.78	考虑顺序后大幅下降约11分
Findings任务	BLEU ~3.5	比Impression任务更具挑战
Category预测	F1 ~77%	解剖分区预测较准确

关键发现¶

Findings生成比Impression生成更具挑战性：传统指标分数显著更低
Aligned评估比Unaligned评估更严格：CheXpert-Plus在SRRG-Impression上BLEU从14.84降至3.78
SRR-BERT在所有对比设置中均显著优于CheXbert，验证了55标签细粒度分类的有效性
即使使用非结构化完整报告作为输入，SRR-BERT仍能保持较好性能
各模型的Category预测准确率约75-78%，说明解剖结构的正确归类是可实现的
CheXagent在Recall上表现突出，而CheXpert-Plus在传统指标上领先

亮点与洞察¶

任务定义有创意：将非结构化报告→结构化报告的转换定义为新任务，既符合临床需求又便于自动评估
评估指标设计精巧：F1-SRR-BERT结合了层级疾病分类体系和对齐/非对齐两种评估模式，弥补了传统NLG指标在医学领域的不足
数据集规模大：基于MIMIC-CXR和CheXpert Plus构建，总计近60万条结构化报告
临床验证充分：5位执业放射科医生参与审阅，增强了结果的临床可信度
55标签覆盖全面：从14标签到55标签的扩展大幅提升了疾病分类的细粒度

局限与展望¶

结构化重写依赖GPT-4，可能引入LLM特有的幻觉或信息丢失
标签空间存在部分模糊区域（如"Air space opacity"类别的F1仅0.62）
Macro F1分数较低（leaves仅0.55），表明稀有标签的分类仍需改进
仅关注胸部X光，未扩展到其他影像类型（CT、MRI等）
未探索端到端结构化报告生成模型的训练
结构化报告的临床实用性需要更大规模的前瞻性临床验证

评分¶

新颖性: ⭐⭐⭐⭐ 结构化报告生成是有价值的新任务定义，SRR-BERT和F1-SRR-BERT设计精良
实验充分度: ⭐⭐⭐⭐ 多模型基准测试、详细的分类对比、人工审阅验证，但缺乏端到端训练实验
写作质量: ⭐⭐⭐⭐ 论文结构完整，数据集统计详尽，但部分表格较密集
价值: ⭐⭐⭐⭐ 为放射学报告生成提供了标准化框架和更好的评估工具，具有实际临床意义