跳转至

Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI

会议: CVPR 2026
arXiv: 2603.11818
代码: 无
领域: 医学图像分类 / 可解释AI
关键词: 卵巢癌检测、CNN对比、可解释AI、组织病理学、InceptionV3

一句话总结

系统对比 15 种 CNN 变体在卵巢癌组织病理图像五分类上的表现,选出 InceptionV3-A(ReLU)达 94% 综合指标后,用 LIME/SHAP/Integrated Gradients 三种 XAI 方法解释其决策。

背景与动机

卵巢癌是全球女性第 7 常见癌症,致死率高,核心难题在于缺乏有效的早期筛查手段——不像乳腺癌有乳腺X光、宫颈癌有 Pap 试验,卵巢癌仅能通过侵入性活检确诊。现有非侵入方法(经阴道超声、CA-125 血检、盆腔检查)准确率不足。深度学习已在多种癌症检测中取得进展,但卵巢癌的 DL 方案仍有限,且临床采纳需要模型可解释性支撑信任。

核心问题

如何在小规模卵巢癌组织病理数据上构建高准确率分类模型,并通过 XAI 为临床决策提供透明依据?

方法详解

整体框架

从 Mendeley 数据集获取 5 类(Clear Cell、Endometri、Mucinous、Non Cancerous、Serous)共 498 张组织病理图像。经数据增强扩充至 2490 张后,系统训练 15 种 CNN 变体,选出最佳模型后叠加 XAI 解释。

关键设计

  1. 数据增强管线: 使用 Albumentations 库做旋转(最高 180 度)、水平/垂直翻转、亮度/对比度/饱和度/色调随机变换,每张图产生 4 张增强图像,从 498 扩至 2490 张。图像转为 Tensor 后将 RGB 值从 0-255 归一化到 0-1。
  2. 15 种 CNN 变体系统对比: LeNet 系列 3 种(基础/+Dropout/+Step Decay)、ResNet 系列 4 种(ResNet-34 两种分辨率/50/101,用随机搜索调学习率和 Dropout)、VGG 系列 4 种(VGG16 三种变体+VGG19,均为迁移学习)、Inception 系列 4 种(V1 两种激活+V3 两种激活,从头训练)。
  3. XAI 三方法对比: 在最终选定模型上分别应用 LIME(局部可解释)、Integrated Gradients(梯度归因)和 SHAP(Shapley 值),对预测区域做对比分析,三种方法的高亮区域存在共性,验证了解释一致性。

损失函数 / 训练策略

分类任务使用 Softmax 输出层 + 交叉熵损失。训练集-测试集 80:20 随机划分。LeNet 系列训练 100 epoch;ResNet 通过随机搜索确定最优超参;VGG 使用 ImageNet 预训练权重冻结特征层只训练全连接层;Inception 从头训练 80 epoch。

实验关键数据

模型 Accuracy Precision Recall F1-Score
VGG19 (迁移学习) 97.19% 97.31% 97.19% 97.20%
VGG16-A (迁移学习) 96.99% 96.98% 96.99% 96.97%
InceptionV3-A (选用) 94.58% 94.75% 94.58% 94.62%
InceptionV1-B 85.74% 86.26% 85.74% 85.42%
LeNet-A 61.85% 62.20% 61.85% 61.96%
ResNet-34_224 57.03% 59.39% 57.03% 57.70%
ResNet-50 34.14% 47.75% 34.14% 33.47%

VGG 系列虽然分数最高,但因迁移学习的黑盒特征层使 XAI 难以有效解释而被排除;InceptionV3-A 作为从头训练的最高分模型被最终选用。

消融实验要点

  • 对比先前工作 VGG16-O(Kasture et al.):同数据集下 VGG16-O 非增强数据仅 50% 准确率,本文 VGG16-A 达 77.78%(+27.78pp),归功于 Tensor 转换和归一化。
  • ReLU vs Tanh 激活函数:InceptionV3-A (ReLU) 94.58% 显著优于 InceptionV3-B (Tanh) 82.13%。
  • 三种 XAI 方法生成的解释在关键区域有共性高亮,表明黑盒解释具有一致性。

亮点

  • 15 种模型的系统对比为医学影像领域的模型选型提供了参考
  • 选模型时综合考虑了 XAI 可行性而非只追求最高精度,体现了部署导向思维
  • XAI 对比分析展示了 LIME/SHAP/IG 三种方法的互补性

局限性 / 可改进方向

  • 数据集极小(498 张原始),增强后也仅 2490 张,泛化能力存疑
  • 全部使用经典 CNN,未尝试 ViT、医学预训练模型
  • 缺少多中心数据验证和真实临床场景测试
  • ResNet 系列表现极差(34-57%),可能与超参搜索策略和训练 epoch 不充分有关

与相关工作的对比

  • vs Kasture et al. (VGG16-O): 同数据集,本文 VGG16-A 在增强数据上 96.99% vs 84.64%
  • vs Hsu et al.: 对方用 ResNet-18/50/Xception 集成学习做超声卵巢癌检测
  • vs Wang et al.: 对方用 DL 做 MRI 卵巢良恶性鉴别达 87% 准确率

启发与关联

  • 医学小数据场景下的增强策略值得借鉴
  • XAI 可解释性作为模型选型维度而非后验分析的思路有参考价值

评分

  • 新颖性: ⭐⭐ 方法组合均为标准套路,无新架构或新技术提出
  • 实验充分度: ⭐⭐ 数据集过小,缺泛化验证和统计检验
  • 写作质量: ⭐⭐⭐ 结构清晰,但部分描述冗余
  • 价值: ⭐⭐ 作为医学AI入门工作有一定参考,但创新和实验深度不足