OpenMIBOOD: Open Medical Imaging Benchmarks for Out-Of-Distribution Detection¶

会议: CVPR 2025
arXiv: 2503.16247
代码: https://github.com/remic-othr/OpenMIBOOD (有)
领域: 医学图像
关键词: 分布外检测, 医学影像, OOD基准, 后验方法, 可信AI

一句话总结¶

本文提出了 OpenMIBOOD，一个专为医学影像设计的 OOD 检测综合基准框架，包含来自组织病理、内窥镜和脑部 MRI 三个医学领域的 14 个数据集，评估了 24 种 post-hoc 方法，揭示了自然图像 OOD 基准的结论无法直接迁移到医学场景。

研究背景与动机¶

领域现状：OOD (Out-of-Distribution) 检测是保障 AI 系统可信度的关键环节。自 2016 年以来，大量 OOD 检测方法涌现，OpenOOD 框架提供了统一的评估标准，但这些基准主要面向自然图像（如 ImageNet）。

现有痛点：医学影像领域缺乏系统性的 OOD 评估基准。现有少量医学 OOD 研究存在明显局限：评估方法数量有限、数据集选择不够全面、缺乏对 covariate-shifted ID（cs-ID）的系统评估。Cao et al. 的工作仅覆盖 8 种 post-hoc 方法，且部分评估场景使用自然图像，与医学场景脱节。

核心矛盾：在自然图像基准上表现优异的 OOD 方法，未必能在医学影像中同样有效。医学图像具有低方差、特定语义偏移（如不同扫描仪、不同染色方案）等独特特征，导致基于分类概率的方法（logits/softmax）在医学场景下远不如基于特征空间的方法有效。

本文目标：构建一个覆盖多个医学领域、包含精细 OOD 分级（cs-ID、near-OOD、far-OOD）的标准化基准，评估大量 post-hoc OOD 检测方法，为医学场景 OOD 检测研究提供可靠参考。

切入角度：沿用 OpenOOD 的分类法但做关键修改——将 cs-ID 独立出来而非与 ID 合并，因为在医学场景中区分 ID 和 cs-ID 同样重要（如不同扫描仪采集的图像）。

核心 idea：用三个医学领域（组织病理 MIDOG、内窥镜 PhaKIR、脑部 MRI OASIS3）的 14 个数据集，对 24 种 post-hoc 方法进行标准化的全面评估。

方法详解¶

整体框架¶

OpenMIBOOD 不是提出新的 OOD 检测算法，而是一个 benchmark 框架。其核心流程为：(1) 构建三个医学 benchmark，每个包含 ID、cs-ID、near-OOD、far-OOD 四层数据；(2) 为每个 benchmark 训练一个分类器；(3) 在分类器上运行 24 种 post-hoc OOD 检测方法并对比性能。

关键设计¶

三层 OOD 分级体系:
- 功能：将域偏移按严重程度分为 cs-ID、near-OOD 和 far-OOD
- 核心思路：cs-ID 指标签不变但输入特征分布变化（如不同扫描仪）；near-OOD 指语义相似但存在显著差异（如不同手术器械类型）；far-OOD 指完全不同的医学应用（如用内窥镜训练的模型遇到眼科图像）
- 设计动机：医学场景中各层偏移的检测难度和临床意义不同，需要分开评估才能精确指导模型部署
三个互补的医学基准:
- 功能：覆盖组织病理（MIDOG）、内窥镜（PhaKIR）和脑 MRI（OASIS3）三个领域
- 核心思路：MIDOG 包含 10 个域的有丝分裂细胞分类，域偏移来自不同扫描仪、染色方案和物种（人/犬）；PhaKIR 包含胆囊切除术器械分类，域偏移来自烟雾遮挡、不同手术和不同手术类型；OASIS3 包含认知正常 vs 阿尔茨海默症分类，域偏移来自不同模态（T1w→T2w）、不同扫描仪和不同解剖区域
- 设计动机：不同医学领域的图像特征差异巨大（2D 病理 vs 2D 内窥镜 vs 3D MRI），需要多领域评估才能得出可靠结论
标准化评估协议:
- 功能：统一方法实现、超参数调优和评估指标
- 核心思路：所有 24 种方法基于 OpenOOD 代码库实现；用 near-OOD 验证集做超参数选择；报告 AUROC、FPR@95 和 AUPRIN/AUPROUT 的调和平均值；按信息来源将方法分为分类型（蓝）、特征型（橙）、混合型（绿）三类
- 设计动机：统一实验条件是公平比较的前提，调和平均值避免了在数据不平衡时某一指标被高估

损失函数 / 训练策略¶

分类器训练使用加权交叉熵损失函数（针对类别不平衡），配合 OneCycle 学习率调度器。MIDOG 和 PhaKIR 使用 ImageNet-1k 预训练权重，OASIS3 使用 Kinetics400 预训练的 R(2+1)D 模型。

实验关键数据¶

主实验¶

方法	MIDOG nOOD	PhaKIR nOOD	OASIS3 nOOD	平均 nOOD AUROC	类型
MDSEns	91.84	97.11	99.46	96.14	特征
ViM	62.67	81.14	98.40	80.74	混合
Residual	65.78	76.99	96.70	79.82	特征
MDS	63.21	76.48	96.15	78.61	特征
KNN	61.63	55.44	97.66	71.58	特征
MSP	55.90	50.16	53.50	53.19	分类
EBO	56.85	40.18	49.39	48.81	分类

方法类型性能对比¶

方法类型	MIDOG 平均	PhaKIR 平均	OASIS3 平均
特征型	66.08	70.68	92.08
混合型	57.18 (-13%)	50.71 (-28%)	69.86 (-24%)
分类型	55.81 (-16%)	49.45 (-30%)	52.13 (-43%)

关键发现¶

特征型方法全面碾压分类型方法：在所有三个医学基准上，基于特征空间的方法平均 AUROC 显著高于基于 logits/softmax 的方法。这可能是因为医学图像方差低（MIDOG/PhaKIR 的平均像素强度标准差仅 0.148/0.149，远低于 ImageNet 的 0.226），导致特征空间更紧凑，更适合基于距离的 OOD 检测。
MDSEns 的高性能来自 covariate shift 检测：MDSEns 利用了网络所有中间层的 Mahalanobis 距离，而浅层更容易捕捉低级视觉特征的变化（如边缘、颜色）。在 MIDOG domain 5（仅有语义偏移无 covariate 偏移）上 MDSEns 性能严重下降至 71.50%，但在 domain 6a（同时有语义和 covariate 偏移）上达到 98.95%。
自然图像基准的最优方法≠医学场景最优：将方法在 ImageNet-1k 和 OpenMIBOOD 上的排名对比发现，两者之间没有明显的正相关。在 ImageNet 上排名靠前的分类型方法在医学场景下表现最差。

亮点与洞察¶

cs-ID 独立评估的设计很有价值：在医学场景中，不同扫描仪采集的同类图像（cs-ID）可能导致模型失效，将其与 ID 合并会掩盖这一风险。这个设计思路可以迁移到其他安全敏感的 AI 部署场景。
分类器过度自信现象的发现：PhaKIR 基准中，EndoSeg18 的 OOD 器械被高置信度地分类为 Grasper，因为特征空间中 OOD 样本聚集在 Grasper 类附近。这说明分类型 OOD 方法在医学场景的局限性本质上是分类器的过度自信。
评估指标选择的讲究：用 AUPRIN 和 AUPROUT 的调和平均值取代单一指标，避免了数据不平衡导致的偏差。这个做法适用于所有类别不平衡的 OOD 评估场景。

局限与展望¶

仅关注分类任务：benchmark 仅覆盖分类场景，未涉及分割任务——后者在医学影像中更为常见和重要
仅评估 post-hoc 方法：未涵盖需要额外训练步骤的方法（如 outlier exposure），尽管作者引用 OpenOOD 的结论认为 post-hoc 方法不弱于训练型方法
分类器架构固定：每个基准仅使用一种分类器架构（ResNet50/ResNet18/R(2+1)D），未探究架构选择对 OOD 检测方法排名的影响
未探究 foundation model 的潜力：随着医学影像 foundation model（如 BiomedCLIP）的发展，基于这些模型的 OOD 检测方法可能表现更优

评分¶

新颖性: ⭐⭐⭐ 核心贡献是 benchmark 构建而非新算法，但 cs-ID 独立评估的设计有新意
实验充分度: ⭐⭐⭐⭐⭐ 24 种方法、14 个数据集、多种指标，是目前医学 OOD 检测最全面的评估
写作质量: ⭐⭐⭐⭐ 结构清晰，附录中数据集描述非常详细，但主文部分 LaTeX 宏渲染问题较多
价值: ⭐⭐⭐⭐ 揭示了自然图像基准结论不可直接迁移的关键发现，对医学 AI 部署有重要指导意义