RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection¶

会议: ACL 2025
arXiv: 2505.14318
代码: https://github.com/wjhou/Radar
领域: 文本生成
关键词: 放射学报告生成, 知识注入, 多模态LLM, 医学影像, RAG

一句话总结¶

提出 Radar 框架，通过"内部知识提取+外部补充知识检索+聚合注入"三步策略增强放射学报告生成——先提取 LLM 已有的与专家分类一致的知识，再检索缺失的补充知识，最终聚合两者生成更准确的放射学报告，在 MIMIC-CXR/CheXpert-Plus/IU X-ray 三个数据集上超越 SOTA。

研究背景与动机¶

领域现状：多模态 LLM 已用于放射学报告自动生成。现有方法通过领域知识检索来增强 LLM，但这些方法忽略了 LLM 本身已有的内在知识。
现有痛点：(a) 直接检索外部知识会引入冗余——如果 LLM 已经知道某些医学知识，重复注入反而增加噪声；(b) 检索不到的知识则完全缺失——没有机制利用模型的内在知识来补充。
核心矛盾：需要精确区分"模型已知什么"和"模型还需要知道什么"——只注入"补充性"知识才有效。
本文要解决什么？ 避免冗余知识注入，只检索和注入 LLM 真正缺乏的补充知识。
切入角度：先提取LLM的内在知识（与专家分类对齐的部分），再检索补充信息填补空白。
核心idea一句话：补充注入 > 全量注入——只给 LLM 它不知道的信息。

方法详解¶

整体框架¶

三步流水线：(1) 内在知识提取——让 LLM 基于影像生成初步findings，与专家图像分类器的输出对齐，提取已获取的可靠知识；(2) 补充知识检索——根据内在知识的缺口，从外部医学知识库检索补充信息；(3) 知识聚合生成——将内在知识和补充知识聚合，指导 LLM 生成最终放射学报告。

关键设计¶

内在知识提取（Internal Knowledge Extraction）:
做什么：提取 LLM 已掌握的、与影像一致的医学知识
核心思路：让 LLM 生成初步 findings，使用专家图像分类器（如疾病检测模型）验证哪些 findings 与图像证据一致
设计动机：不是所有 LLM 生成的 findings 都可靠——只保留与图像证据对齐的部分
补充知识检索（Supplementary Knowledge Retrieval）:
做什么：为 LLM 缺失的知识寻找外部补充
核心思路：对比内在知识和完整的疾病描述，找到知识缺口（如 LLM 没有提到某个异常的典型表现），从外部知识库检索对应内容
设计动机："只补缺"——避免冗余注入
知识聚合生成:
做什么：将两种知识融合后生成报告
设计动机：内在知识提供已确认的基础，补充知识填补空白，两者结合产出更全面的报告

损失函数 / 训练策略¶

LLM 用标准 SFT 训练
图像分类器预训练在医学影像数据集上
三个评估数据集：MIMIC-CXR、CheXpert-Plus、IU X-ray

实验关键数据¶

主实验¶

方法	语言质量(BLEU/ROUGE)	临床准确度	说明
MLLM baseline	中	中	直接生成
MLLM + 全量RAG	中高	中高	冗余信息
Radar (补充知识)	最高	最高	精准注入

消融实验¶

配置	效果	说明
w/o 内在知识提取	性能下降	无法利用模型已有知识
w/o 补充知识检索	性能下降	缺乏外部知识补充
全量注入 vs 补充注入	补充注入更好	冗余信息确实有害

关键发现¶

"补充式"知识注入显著优于"全量式"——避免冗余信息干扰生成
内在知识提取+图像分类器验证是可靠的知识质量控制手段
在三个公开医学数据集上同时提升语言质量和临床准确度
对罕见疾病的改进最大——模型内在知识最缺乏的地方

亮点与洞察¶

"只补缺不重复"的知识注入策略有普适性——不仅适用于医学，任何RAG场景都可以先检查模型知道什么再补充。
将图像分类器作为"知识验证器"巧妙——交叉验证不同模态的输出来确认知识可靠性。
该框架对临床决策支持系统有直接应用价值。

局限性 / 可改进方向¶

图像分类器的准确性直接影响内在知识提取的质量
外部知识库的覆盖范围限制了补充能力
仅在胸部X光上验证，其他影像模态未测试

评分¶

新颖性: ⭐⭐⭐⭐ "补充式"知识注入理念新颖且有普适性
实验充分度: ⭐⭐⭐⭐ 三个数据集+消融+对比充分
写作质量: ⭐⭐⭐⭐ 动机清晰
价值: ⭐⭐⭐⭐ 对医学报告生成有直接应用价值