Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD¶

会议: CVPR 2026
arXiv: 2603.10933
代码: 无
领域: 医学图像
关键词: CBCT报告生成, 口腔颌面影像, 放射科医生-AI协作, 多层级评估, 双语报告

一句话总结¶

提出CBCTRepD——面向口腔颌面CBCT的双语报告生成系统，基于7408例高质量配对数据集训练，结合多层级评估框架验证其在放射科医生-AI协作工作流中对初级、中级、高级医生的分级赋能效果。

研究背景与动机¶

领域现状：口腔颌面CBCT（锥形束CT）是口腔临床中广泛使用的三维影像模态，而生成式AI在胸部X光等二维影像的报告生成领域已取得显著进展（如R2Gen、CheXagent等）。

现有痛点：CBCT报告生成面临三大瓶颈：(1) 高质量配对CBCT-报告数据极度稀缺，公开数据集几乎不存在；(2) CBCT是体数据，涉及55种口腔疾病实体，解读复杂度远超二维影像；(3) 现有评估范式仅评估AI直接输出质量，忽略了临床中更常见的"医生-AI协作"场景。

核心矛盾：AI报告生成技术成熟但数据和评估框架滞后——没有大规模配对数据无法训练好模型，没有协作评估框架无法衡量AI在真实临床工作流中的实际价值。

本文目标 构建一个可融入日常放射科工作流的CBCT报告生成系统，并通过多层级评估框架量化其对不同经验水平医生的赋能效果。

切入角度：同时解决数据、模型和评估三个层面——构建大规模数据集、开发双语报告生成系统、设计协作评估框架。

核心 idea：用7408例配对数据训练CBCT报告生成系统，用"AI草稿+医生编辑"的协作模式和多层级评估框架证明AI对各经验水平医生均有临床意义的提升。

方法详解¶

整体框架¶

CBCTRepD是一个面向口腔颌面CBCT的端到端报告生成系统。流程为：CBCT三维体数据 → 三维影像编码器（提取多解剖区域的空间特征）→ 报告生成模块（自动生成结构化中英文报告草稿）→ 协作编辑界面（医生在AI草稿基础上修正和补充）→ 最终临床报告。系统设计为嵌入放射科日常工作流的AI协作工具。

关键设计¶

大规模高质量配对数据集:
- 功能：构建口腔颌面CBCT领域迄今最大规模的影像-报告配对数据集
- 核心思路：约7408例CBCT研究，覆盖55种口腔疾病实体（牙周炎、根尖周炎、颌骨囊肿、阻生牙、颞下颌关节疾病等），涵盖多厂商设备、多扫描参数和多临床场景。中英双语标注，由资深放射科医生审核
- 设计动机：高质量配对数据是训练可靠报告生成模型的基础，此前该领域几乎没有公开数据资源，数据集本身即为重要贡献
多层级临床评估框架:
- 功能：建立覆盖"AI直接输出"和"医生-AI协作输出"两个层级的评估体系
- 核心思路：Layer 1评估AI独立生成的报告草稿质量；Layer 2评估不同经验水平医生（初级/中级/高级）基于AI草稿编辑后的最终报告质量。评估维度包括自动指标（BLEU、ROUGE、CIDEr等）、放射科医生评估（完整性、规范性、准确性）和临床医生评估（诊断信息充分性、决策支持价值）
- 设计动机：传统评估仅衡量AI输出质量，但临床真实场景是协作模式。多层级评估更准确地反映系统在实际部署中的价值
双语结构化报告生成:
- 功能：支持中英文输出的结构化报告生成
- 核心思路：基于三维影像编码器提取的特征，自动生成覆盖各解剖区域的系统性报告，强调跨区域共存病灶的发现
- 设计动机：双语设计使系统具备跨地域部署潜力；结构化输出提升报告规范性，减少遗漏

损失函数 / 训练策略¶

系统基于约7408例配对数据进行端到端训练，采用标准的医学报告生成训练范式（交叉熵损失 + 强化学习微调以优化CIDEr等指标）。训练数据经资深放射科医生审核确保标注质量。

实验关键数据¶

主实验¶

评估对象	报告结构规范性	病灶描述完整性	写作标准化	跨区域病灶覆盖
初级放射科医生	较低	遗漏较多	不规范	低
CBCTRepD AI草稿	中级水平	与中级相当	接近中级	系统性覆盖
中级放射科医生	中等	偶有遗漏	规范	中等
高级放射科医生	高	极少遗漏	高度规范	高

AI-医生协作效果¶

医生经验水平	无AI辅助	使用CBCTRepD后	提升效果
初级 (Novice)	初级水平	接近中级水平	完整性和规范性显著提升，遗漏减少
中级 (Intermediate)	中级水平	接近高级水平	病灶描述更准确，跨区域关注度提升
高级 (Senior)	高级水平	高级水平+	遗漏相关错误减少（含临床重要漏诊）

关键发现¶

CBCTRepD直接生成的报告在写作质量和标准化上与中级放射科医生相当
AI-医生协作在三个经验层级均产生一致且有临床意义的提升
对初级医生提升最显著（提升一个等级）；对高级医生的价值在于"安全网效应"——减少疲劳导致的遗漏
系统在促进医生关注共存病灶（co-existing lesions across anatomical regions）方面尤其突出

亮点与洞察¶

数据集贡献本身即有重大价值：7408例覆盖55种疾病实体的配对数据集填补了口腔颌面CBCT领域的数据空白
评估范式创新：从"评估AI输出"转变为"评估AI-人类协作输出"，更贴近真实临床部署场景
跨经验水平赋能验证：不同于多数系统仅对初级用户有帮助，CBCTRepD对高级医生也有明确价值（减少遗漏），这对推动临床采纳至关重要
关注遗漏而非误报：系统在减少omission错误方面尤其突出，在临床放射学中这比误报更具安全意义

局限与展望¶

数据来源可能存在单中心偏差，多中心验证是泛化的关键前提
55种疾病实体的样本分布可能不均衡，罕见疾病的报告生成质量存疑
CBCT体数据的计算和存储开销较大，实际部署的推理效率和硬件需求待优化
协作模式可能引入automation bias——医生知道有AI辅助可能改变诊断行为，长期影响需纵向研究
缺乏与其他医学报告生成方法（如RadFM、LLaVA-Med）的直接定量对比

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向口腔颌面CBCT的报告生成系统，数据集和评估框架填补领域空白
实验充分度: ⭐⭐⭐⭐ 多层级评估框架设计合理，涵盖自动指标+放射科专家+临床医生评估
写作质量: ⭐⭐⭐⭐ 问题-方法-结果逻辑链完整，摘要信息密度高
价值: ⭐⭐⭐⭐⭐ 对口腔放射学临床实践有直接应用价值，分级赋能的验证对AI部署推广具有示范意义