Deep Learning-based Assessment of the Relation Between the Third Molar and Mandibular Canal on Panoramic Radiographs using Local, Centralized, and Federated Learning¶

会议: CVPR 2026
arXiv: 2603.11850
代码: 待确认
领域: 医学图像分析 / 联邦学习 / 口腔影像
关键词: federated learning, panoramic radiography, third molar, mandibular canal, privacy-preserving

一句话总结¶

在 8 个标注者划分的全景口腔 X 光裁剪片上，系统对比本地学习（LL）、联邦学习（FL）和集中学习（CL）在第三磨牙-下颌管重叠二分类任务上的表现，验证 FL 作为隐私保护替代方案的可行性。

背景与动机¶

阻生下颌第三磨牙（智齿）靠近下颌管时，拔牙手术中有损伤下牙槽神经的风险。全景 X 光片（OPG）常用于术前评估磨牙与下颌管的空间关系。自动化重叠分类可辅助临床分诊、减少不必要的 CBCT 转诊。但多中心口腔数据因隐私法规无法直接共享，联邦学习提供了一种在不共享数据前提下实现多中心协作的路径。

核心问题¶

在存在真实标注者差异的口腔影像数据上，联邦学习能否在保护隐私的同时提供足够的模型性能？相比独立本地训练和数据集中训练，联邦学习的性能-隐私权衡到底如何？

方法详解¶

整体框架¶

全景 X 光中裁剪第三磨牙与下颌管区域 → 按 8 个独立标注者划分为客户端 → 分别在 LL/FL/CL 三种范式下训练预训练 ResNet-34 → 通过 per-client（本地最优阈值）和 pooled（全局阈值）两种方式评估。

关键设计¶

三范式对比设计：LL 每个客户端独立训练；FL 通过 FedAvg 在服务端聚合模型参数但数据不出本地；CL 集中所有数据训练。三者使用相同预训练 ResNet-34 backbone 和数据划分，确保公平比较。
双轨评估协议：per-client 使用各客户端验证集最优阈值，反映本地部署性能；pooled 使用全局统一阈值，反映跨中心泛化能力。两种指标从不同部署角度刻画模型。
可解释性与训练动态分析：Grad-CAM 可视化三种范式的注意力分布，观察 CL/FL 是否比 LL 更关注磨牙-管关系的解剖学区域；训练曲线分析过拟合程度（LL 最严重）。

损失函数 / 训练策略¶

预训练 ResNet-34 做二分类（overlap vs no-overlap）
FL 使用标准 FedAvg 聚合策略
同时监控 server-side 聚合信号以追踪训练状态

实验关键数据¶

CL：AUC = 0.831, Accuracy = 0.782（最高性能）
FL：AUC = 0.757, Accuracy = 0.703（中间水平，比 LL 明显好）
LL：AUC 范围 0.619–0.734, 均值 0.672（最低且跨客户端方差大）
训练曲线显示 LL 模型过拟合最严重，FL 和 CL 更稳定
Grad-CAM 显示 CL 和 FL 的注意力更集中在解剖学相关区域

消融实验要点¶

8 个客户端的 LL 性能差异大（AUC 跨度 >0.1），说明局部数据分布差异显著影响泛化
FL 相比 LL 的提升来自跨客户端知识共享，但 CL→FL 的性能差距（AUC 0.831→0.757）仍较大
标注者间的判断标准差异是性能瓶颈之一

亮点¶

联邦学习在口腔影像真实多标注者设置下的系统性基准测试，填补 dental AI + FL 的空白
双轨评估设计严谨，区分了本地部署和跨中心泛化两种实际场景
提供了清晰的三范式性能排序（CL > FL > LL），为临床部署决策提供依据

局限性 / 可改进方向¶

二分类任务（overlap/no-overlap）过于简单，临床需要更细粒度的风险分级
FL 仅用标准 FedAvg，可探索 FedProx、SCAFFOLD 等处理数据异质性的更先进算法
8 个标注者规模较小，大规模多中心验证有待开展
未详细分析标注者间一致性（inter-rater agreement）及其对 FL 收敛的影响

与相关工作的对比¶

与通用医学 FL 研究（FedAvg 在 X-ray/CT 上的应用）：本文聚焦口腔特定任务，数据按标注者而非机构划分，更接近真实场景
与传统 dental AI 工作：大多依赖单中心集中训练，本文首次在磨牙-管关系评估中引入 FL
与更先进 FL 工作（FedProx/FedBN）：本文仅用 FedAvg 作为基线，有明确的改进空间

启发与关联¶

FL 的性能-隐私权衡在许多医学影像场景有实际意义
标注者异质性（类似 Non-IID）对 FL 的影响是值得深入的研究方向

评分¶

新颖性: ⭐⭐⭐ FL 在口腔影像中有一定新意，但方法层面无创新
实验充分度: ⭐⭐⭐ 三范式对比合理但 FL 算法探索和数据规模有限
写作质量: ⭐⭐⭐ 结构清晰，摘要信息完整
价值: ⭐⭐⭐ 为口腔 AI 隐私保护提供基线参考，但实用性有限