跳转至

RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection

会议: ACL 2025
arXiv: 2505.14318
代码: https://github.com/wjhou/Radar
领域: 文本生成
关键词: 放射学报告生成, 知识注入, 多模态LLM, 医学影像, RAG

一句话总结

提出 Radar 框架,通过"内部知识提取+外部补充知识检索+聚合注入"三步策略增强放射学报告生成——先提取 LLM 已有的与专家分类一致的知识,再检索缺失的补充知识,最终聚合两者生成更准确的放射学报告,在 MIMIC-CXR/CheXpert-Plus/IU X-ray 三个数据集上超越 SOTA。

研究背景与动机

  1. 领域现状:多模态 LLM 已用于放射学报告自动生成。现有方法通过领域知识检索来增强 LLM,但这些方法忽略了 LLM 本身已有的内在知识。
  2. 现有痛点:(a) 直接检索外部知识会引入冗余——如果 LLM 已经知道某些医学知识,重复注入反而增加噪声;(b) 检索不到的知识则完全缺失——没有机制利用模型的内在知识来补充。
  3. 核心矛盾:需要精确区分"模型已知什么"和"模型还需要知道什么"——只注入"补充性"知识才有效。
  4. 本文要解决什么? 避免冗余知识注入,只检索和注入 LLM 真正缺乏的补充知识。
  5. 切入角度:先提取LLM的内在知识(与专家分类对齐的部分),再检索补充信息填补空白。
  6. 核心idea一句话:补充注入 > 全量注入——只给 LLM 它不知道的信息。

方法详解

整体框架

三步流水线:(1) 内在知识提取——让 LLM 基于影像生成初步findings,与专家图像分类器的输出对齐,提取已获取的可靠知识;(2) 补充知识检索——根据内在知识的缺口,从外部医学知识库检索补充信息;(3) 知识聚合生成——将内在知识和补充知识聚合,指导 LLM 生成最终放射学报告。

关键设计

  1. 内在知识提取(Internal Knowledge Extraction):
  2. 做什么:提取 LLM 已掌握的、与影像一致的医学知识
  3. 核心思路:让 LLM 生成初步 findings,使用专家图像分类器(如疾病检测模型)验证哪些 findings 与图像证据一致
  4. 设计动机:不是所有 LLM 生成的 findings 都可靠——只保留与图像证据对齐的部分

  5. 补充知识检索(Supplementary Knowledge Retrieval):

  6. 做什么:为 LLM 缺失的知识寻找外部补充
  7. 核心思路:对比内在知识和完整的疾病描述,找到知识缺口(如 LLM 没有提到某个异常的典型表现),从外部知识库检索对应内容
  8. 设计动机:"只补缺"——避免冗余注入

  9. 知识聚合生成:

  10. 做什么:将两种知识融合后生成报告
  11. 设计动机:内在知识提供已确认的基础,补充知识填补空白,两者结合产出更全面的报告

损失函数 / 训练策略

  • LLM 用标准 SFT 训练
  • 图像分类器预训练在医学影像数据集上
  • 三个评估数据集:MIMIC-CXR、CheXpert-Plus、IU X-ray

实验关键数据

主实验

方法 语言质量(BLEU/ROUGE) 临床准确度 说明
MLLM baseline 直接生成
MLLM + 全量RAG 中高 中高 冗余信息
Radar (补充知识) 最高 最高 精准注入

消融实验

配置 效果 说明
w/o 内在知识提取 性能下降 无法利用模型已有知识
w/o 补充知识检索 性能下降 缺乏外部知识补充
全量注入 vs 补充注入 补充注入更好 冗余信息确实有害

关键发现

  • "补充式"知识注入显著优于"全量式"——避免冗余信息干扰生成
  • 内在知识提取+图像分类器验证是可靠的知识质量控制手段
  • 在三个公开医学数据集上同时提升语言质量和临床准确度
  • 对罕见疾病的改进最大——模型内在知识最缺乏的地方

亮点与洞察

  • "只补缺不重复"的知识注入策略有普适性——不仅适用于医学,任何RAG场景都可以先检查模型知道什么再补充。
  • 将图像分类器作为"知识验证器"巧妙——交叉验证不同模态的输出来确认知识可靠性。
  • 该框架对临床决策支持系统有直接应用价值。

局限性 / 可改进方向

  • 图像分类器的准确性直接影响内在知识提取的质量
  • 外部知识库的覆盖范围限制了补充能力
  • 仅在胸部X光上验证,其他影像模态未测试

相关工作与启发

  • vs 传统医学RAG: 全量检索注入;Radar精准补充
  • vs R2Gen等: 专用模型但无RAG增强;Radar结合LLM+RAG
  • vs Omni-RAG: Omni-RAG关注"从哪个源检索";Radar关注"只检索缺失的"——互补

评分

  • 新颖性: ⭐⭐⭐⭐ "补充式"知识注入理念新颖且有普适性
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集+消融+对比充分
  • 写作质量: ⭐⭐⭐⭐ 动机清晰
  • 价值: ⭐⭐⭐⭐ 对医学报告生成有直接应用价值