RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection¶
会议: ACL 2025
arXiv: 2505.14318
代码: https://github.com/wjhou/Radar
领域: 文本生成
关键词: 放射学报告生成, 知识注入, 多模态LLM, 医学影像, RAG
一句话总结¶
提出 Radar 框架,通过"内部知识提取+外部补充知识检索+聚合注入"三步策略增强放射学报告生成——先提取 LLM 已有的与专家分类一致的知识,再检索缺失的补充知识,最终聚合两者生成更准确的放射学报告,在 MIMIC-CXR/CheXpert-Plus/IU X-ray 三个数据集上超越 SOTA。
研究背景与动机¶
- 领域现状:多模态 LLM 已用于放射学报告自动生成。现有方法通过领域知识检索来增强 LLM,但这些方法忽略了 LLM 本身已有的内在知识。
- 现有痛点:(a) 直接检索外部知识会引入冗余——如果 LLM 已经知道某些医学知识,重复注入反而增加噪声;(b) 检索不到的知识则完全缺失——没有机制利用模型的内在知识来补充。
- 核心矛盾:需要精确区分"模型已知什么"和"模型还需要知道什么"——只注入"补充性"知识才有效。
- 本文要解决什么? 避免冗余知识注入,只检索和注入 LLM 真正缺乏的补充知识。
- 切入角度:先提取LLM的内在知识(与专家分类对齐的部分),再检索补充信息填补空白。
- 核心idea一句话:补充注入 > 全量注入——只给 LLM 它不知道的信息。
方法详解¶
整体框架¶
三步流水线:(1) 内在知识提取——让 LLM 基于影像生成初步findings,与专家图像分类器的输出对齐,提取已获取的可靠知识;(2) 补充知识检索——根据内在知识的缺口,从外部医学知识库检索补充信息;(3) 知识聚合生成——将内在知识和补充知识聚合,指导 LLM 生成最终放射学报告。
关键设计¶
- 内在知识提取(Internal Knowledge Extraction):
- 做什么:提取 LLM 已掌握的、与影像一致的医学知识
- 核心思路:让 LLM 生成初步 findings,使用专家图像分类器(如疾病检测模型)验证哪些 findings 与图像证据一致
-
设计动机:不是所有 LLM 生成的 findings 都可靠——只保留与图像证据对齐的部分
-
补充知识检索(Supplementary Knowledge Retrieval):
- 做什么:为 LLM 缺失的知识寻找外部补充
- 核心思路:对比内在知识和完整的疾病描述,找到知识缺口(如 LLM 没有提到某个异常的典型表现),从外部知识库检索对应内容
-
设计动机:"只补缺"——避免冗余注入
-
知识聚合生成:
- 做什么:将两种知识融合后生成报告
- 设计动机:内在知识提供已确认的基础,补充知识填补空白,两者结合产出更全面的报告
损失函数 / 训练策略¶
- LLM 用标准 SFT 训练
- 图像分类器预训练在医学影像数据集上
- 三个评估数据集:MIMIC-CXR、CheXpert-Plus、IU X-ray
实验关键数据¶
主实验¶
| 方法 | 语言质量(BLEU/ROUGE) | 临床准确度 | 说明 |
|---|---|---|---|
| MLLM baseline | 中 | 中 | 直接生成 |
| MLLM + 全量RAG | 中高 | 中高 | 冗余信息 |
| Radar (补充知识) | 最高 | 最高 | 精准注入 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| w/o 内在知识提取 | 性能下降 | 无法利用模型已有知识 |
| w/o 补充知识检索 | 性能下降 | 缺乏外部知识补充 |
| 全量注入 vs 补充注入 | 补充注入更好 | 冗余信息确实有害 |
关键发现¶
- "补充式"知识注入显著优于"全量式"——避免冗余信息干扰生成
- 内在知识提取+图像分类器验证是可靠的知识质量控制手段
- 在三个公开医学数据集上同时提升语言质量和临床准确度
- 对罕见疾病的改进最大——模型内在知识最缺乏的地方
亮点与洞察¶
- "只补缺不重复"的知识注入策略有普适性——不仅适用于医学,任何RAG场景都可以先检查模型知道什么再补充。
- 将图像分类器作为"知识验证器"巧妙——交叉验证不同模态的输出来确认知识可靠性。
- 该框架对临床决策支持系统有直接应用价值。
局限性 / 可改进方向¶
- 图像分类器的准确性直接影响内在知识提取的质量
- 外部知识库的覆盖范围限制了补充能力
- 仅在胸部X光上验证,其他影像模态未测试
相关工作与启发¶
- vs 传统医学RAG: 全量检索注入;Radar精准补充
- vs R2Gen等: 专用模型但无RAG增强;Radar结合LLM+RAG
- vs Omni-RAG: Omni-RAG关注"从哪个源检索";Radar关注"只检索缺失的"——互补
评分¶
- 新颖性: ⭐⭐⭐⭐ "补充式"知识注入理念新颖且有普适性
- 实验充分度: ⭐⭐⭐⭐ 三个数据集+消融+对比充分
- 写作质量: ⭐⭐⭐⭐ 动机清晰
- 价值: ⭐⭐⭐⭐ 对医学报告生成有直接应用价值