RadGPT: Constructing 3D Image-Text Tumor Datasets¶

会议: ICCV 2025
arXiv: 2501.04678
代码: https://github.com/MrGiovanni/RadGPT
领域: 医学图像 / 报告生成
关键词: CT报告生成, 肿瘤数据集, 分割辅助报告, 腹部CT, 结构化报告

一句话总结¶

本文提出 RadGPT——一个解剖感知的 VL AI 管线，通过将放射科医师修订的肿瘤分割 mask 经由确定性算法转化为结构化报告、再由 LLM 适配为叙述性报告，构建了首个大规模公开腹部 CT 图文肿瘤数据集 AbdomenAtlas 3.0（9,262 例 CT、每体素标注 + 报告），并证明分割辅助可显著提升 AI 报告中的肿瘤检测率。

研究背景与动机¶

领域现状：美国每年超过 8500 万次 CT 扫描且年增 6%，远超放射科医师 0.7% 的年增率。AI 辅助报告生成有巨大需求，但缺少训练数据——目前没有公开的腹部 CT 数据集同时包含放射学报告和体素级标注。

现有痛点：(a) 公开 CT 数据集要么只有分割 mask 没有报告，要么只有文字标注没有体素级标注；(b) 现有腹部 CT 报告生成模型（M3D、Merlin）训练数据有限，在肿瘤检测上表现极差，尤其对 ≤2cm 的小肿瘤几乎完全漏检；(c) 传统报告生成评价指标（BLEU、ROUGE）容易被写作风格差异干扰，无法真正衡量诊断准确性。

核心矛盾：肿瘤在 CT 中可能仅占全体积的 0.0001%，纯视觉 VLM 极难定位如此微小的病变。而分割模型恰好擅长体素级定位，但无法输出结构化文本报告。

本文目标 (a) 构建首个大规模 CT-mask-报告三元组数据集；(b) 设计从分割到报告的确定性可解释管线；(c) 证明分割辅助能显著改善报告中的肿瘤检出率。

切入角度：不让 VLM 直接从图像生成报告（容易漏检小肿瘤），而是先用分割模型定位肿瘤，再用确定性规则提取属性填充模板生成结构化报告，最后用 LLM 转化为叙述风格。这种"分割→属性提取→模板填充→风格适配"的管线确保了报告与分割 mask 的完全一致性和可解释性。

核心 idea：用确定性算法将分割 mask 翻译为放射学报告，既保证了报告的可解释性和准确性，又克服了 VLM 对微小肿瘤的漏检问题。

方法详解¶

整体框架¶

RadGPT 是三阶段管线：Stage I 分割（DiffTumor + nnU-Net 分割 26 个解剖结构 → 放射科医师修订）→ Stage II 结构化报告生成（确定性算法从分割中提取属性 → 填充模板）→ Stage III 风格适配（LLM 将结构化报告转化为目标医院的叙述风格）。在构建 AbdomenAtlas 3.0 时加入人工修订；作为全自动模型时跳过修订。

关键设计¶

器官子分割定位肿瘤（Stage II-a）:
- 功能：将肝脏分割为 Couinaud 标准的 8 个子段、胰腺分割为头/体/尾，用于在结构化报告中精确描述肿瘤位置
- 核心思路：肝脏子分割——将肝脏区域 HU 偏移 200 作为输入，在 LiTS 131 例上微调 nnU-Net；胰腺子分割——利用肠系膜上动脉（SMA）作为解剖标志物，确定性算法切分头/体/尾（无公开标注，本文是首个提供的数据集）
- 设计动机：肿瘤位置对手术规划至关重要（如可否切除），放射科医师的报告必须指明肿瘤所在子段
类放射科医师的肿瘤测量（Stage II-b）:
- 功能：从分割 mask 中提取 WHO 标准的肿瘤最长径 \(D\) 及其垂直径 \(d\)、体积、HU 衰减值
- 核心思路：确定性算法实现 WHO 测量标准——在任意轴位平面找肿瘤最长径及同平面垂直径。结构化报告还包含器官体积（诊断器官增大）和平均 HU（诊断脂肪肝<40 HU、脂肪胰腺<0.7 胰/脾比值）
- 设计动机：标准化测量确保报告间的可比性，确定性规则确保报告与 mask 完全一致
胰腺癌分期（Stage II-c）:
- 功能：从肿瘤和血管的分割中自动完成 PDAC T 分期（T1-T4）
- 核心思路：先分割 5 条关键血管（SMA、CHA、CA、SMV、PV），测量肿瘤-血管接触角度。接触角 >180° 表示肿瘤不可切除（T4 期）。确定性算法忠实实现放射科指南
- 设计动机：PDAC 是致命率极高的肿瘤，分期决定手术方案。本数据集是首个提供公开 PDAC T 分期标签的
LLM 风格适配（Stage III）:
- 功能：将填充好的结构化报告转化为目标医院的叙述风格
- 核心思路：使用 in-context learning，优先选择诊断相似的示例报告作为 few-shot 示例，要求 LLM 保留医学信息并做一致性自检。还支持将结构化报告与已有人工报告融合（enhanced 模式）
- 设计动机：不同医院的报告风格差异大，LLM 适配使数据集有更广的适用性

损失函数 / 训练策略¶

RadGPT 本身无需端到端训练，但用到的分割模型（DiffTumor 肿瘤分割 + nnU-Net 器官/血管分割）分别在不同数据集上训练。报告质量评估使用新提出的诊断指标：用 LLM 从 AI 和人工报告中提取标签（肿瘤有/无），再计算敏感度和特异度。LLM 标签提取的零样本准确率经放射科医师验证为 96%。

实验关键数据¶

主实验¶

AbdomenAtlas 3.0 内部验证（test split）+ UCSF 外部验证，肿瘤检测的敏感度和特异度：

模型	胰腺 Sen.(≤2cm)	胰腺 Sen.(>2cm)	胰腺 Spec.	肾脏 Sen.(≤2cm)	肝脏 Sen.(≤2cm)
CT-CHAT	66.7	51.9	61.2	31.1	5.7
CT2Rep	0.0	0.0	92.5	36.5	35.8
M3D	0.0	7.4	97.2	8.1	9.4
Merlin	33.3	51.9	71.8	28.4	30.2
RadFM	0.0	0.0	99.9	3.7	3.3
RadGPT	66.7	81.5	93.2	54.8	39.6

消融 / 数据集统计¶

指标	数值
CT 扫描总数	9,262
包含肿瘤的 CT	3,955
新标注的肿瘤	3,011（将源数据集的标注扩大 4.2×）
报告 token 总数	1,843,262
小肿瘤（≤2cm）	7,003
肝脏肿瘤	5,582
肾脏肿瘤	4,424
胰腺肿瘤	368

关键发现¶

分割辅助戏剧性提升肿瘤检出：RadGPT 胰腺肿瘤>2cm 敏感度 81.5%，远超所有纯 VLM（最高仅 51.9%）。对 ≤2cm 小肿瘤差距更大
纯 VLM 几乎无法检测小肿瘤：CT2Rep、M3D、RadFM 对胰腺和肝脏小肿瘤的敏感度接近 0%，说明 VLM 面对体积占比极小的病变严重不足
外部验证性能保持：在 UCSF 外部数据集上，RadGPT 仍显著优于所有对比方法
传统文本指标不可靠：Merlin 的 BLEU/ROUGE 分数与 RadGPT 相当，但诊断敏感度差距巨大，进一步证实了使用诊断指标评估的必要性

亮点与洞察¶

确定性管线的可解释性：关键创新在于 Stage II 完全使用确定性算法（无 ML），确保结构化报告与分割 mask 100% 一致。放射科医师只需审核分割即可信任报告，无需额外审核文本
数据集的综合价值：AbdomenAtlas 3.0 同时提供 CT、体素级标注和报告三元组，填补了腹部 CT 数据集的关键空白，可推动分割辅助报告生成这一新范式
诊断导向的评估指标：提出用 LLM 从报告中提取诊断标签再计算敏感度/特异度的评估方案，比 BLEU/ROUGE 更贴近临床需求
胰腺癌自动分期：首次实现从分割 mask 到 T 分期的全自动管线，对高致死率的 PDAC 有重要临床意义

局限与展望¶

依赖分割质量：全自动模式下分割错误会直接传导到报告中，尤其小肿瘤的假阳/假阴影响较大
仅覆盖三种器官肿瘤：当前仅处理肝/肾/胰腺肿瘤，肺、结肠等其他常见肿瘤尚未覆盖
叙述报告的风格单一：LLM 风格适配基于单个医院的示例报告，跨机构泛化性待验证
改进方向：可探索将分割信息以 visual prompt 的形式注入 VLM，让模型端到端地利用位置信息；可扩展到不确定性估计——分割置信度低时报告中加注提示

评分¶

新颖性: ⭐⭐⭐⭐ "分割→报告"的确定性管线思路新颖且实用，但方法偏工程化
实验充分度: ⭐⭐⭐⭐⭐ 6 个模型对比、内外部验证、新评估指标经放射科医师验证
写作质量: ⭐⭐⭐⭐ 内容详实，数据集描述清晰，但论文篇幅较长
价值: ⭐⭐⭐⭐⭐ 数据集贡献巨大，代码和数据公开，对社区有分水岭意义

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评