Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI¶
会议: CVPR 2026
arXiv: 2603.11818
代码: 无
领域: 医学图像分类 / 可解释AI
关键词: 卵巢癌检测、CNN对比、可解释AI、组织病理学、InceptionV3
一句话总结¶
系统对比 15 种 CNN 变体在卵巢癌组织病理图像五分类上的表现,选出 InceptionV3-A(ReLU)达 94% 综合指标后,用 LIME/SHAP/Integrated Gradients 三种 XAI 方法解释其决策。
背景与动机¶
卵巢癌是全球女性第 7 常见癌症,致死率高,核心难题在于缺乏有效的早期筛查手段——不像乳腺癌有乳腺X光、宫颈癌有 Pap 试验,卵巢癌仅能通过侵入性活检确诊。现有非侵入方法(经阴道超声、CA-125 血检、盆腔检查)准确率不足。深度学习已在多种癌症检测中取得进展,但卵巢癌的 DL 方案仍有限,且临床采纳需要模型可解释性支撑信任。
核心问题¶
如何在小规模卵巢癌组织病理数据上构建高准确率分类模型,并通过 XAI 为临床决策提供透明依据?
方法详解¶
整体框架¶
从 Mendeley 数据集获取 5 类(Clear Cell、Endometri、Mucinous、Non Cancerous、Serous)共 498 张组织病理图像。经数据增强扩充至 2490 张后,系统训练 15 种 CNN 变体,选出最佳模型后叠加 XAI 解释。
关键设计¶
- 数据增强管线: 使用 Albumentations 库做旋转(最高 180 度)、水平/垂直翻转、亮度/对比度/饱和度/色调随机变换,每张图产生 4 张增强图像,从 498 扩至 2490 张。图像转为 Tensor 后将 RGB 值从 0-255 归一化到 0-1。
- 15 种 CNN 变体系统对比: LeNet 系列 3 种(基础/+Dropout/+Step Decay)、ResNet 系列 4 种(ResNet-34 两种分辨率/50/101,用随机搜索调学习率和 Dropout)、VGG 系列 4 种(VGG16 三种变体+VGG19,均为迁移学习)、Inception 系列 4 种(V1 两种激活+V3 两种激活,从头训练)。
- XAI 三方法对比: 在最终选定模型上分别应用 LIME(局部可解释)、Integrated Gradients(梯度归因)和 SHAP(Shapley 值),对预测区域做对比分析,三种方法的高亮区域存在共性,验证了解释一致性。
损失函数 / 训练策略¶
分类任务使用 Softmax 输出层 + 交叉熵损失。训练集-测试集 80:20 随机划分。LeNet 系列训练 100 epoch;ResNet 通过随机搜索确定最优超参;VGG 使用 ImageNet 预训练权重冻结特征层只训练全连接层;Inception 从头训练 80 epoch。
实验关键数据¶
| 模型 | Accuracy | Precision | Recall | F1-Score |
|---|---|---|---|---|
| VGG19 (迁移学习) | 97.19% | 97.31% | 97.19% | 97.20% |
| VGG16-A (迁移学习) | 96.99% | 96.98% | 96.99% | 96.97% |
| InceptionV3-A (选用) | 94.58% | 94.75% | 94.58% | 94.62% |
| InceptionV1-B | 85.74% | 86.26% | 85.74% | 85.42% |
| LeNet-A | 61.85% | 62.20% | 61.85% | 61.96% |
| ResNet-34_224 | 57.03% | 59.39% | 57.03% | 57.70% |
| ResNet-50 | 34.14% | 47.75% | 34.14% | 33.47% |
VGG 系列虽然分数最高,但因迁移学习的黑盒特征层使 XAI 难以有效解释而被排除;InceptionV3-A 作为从头训练的最高分模型被最终选用。
消融实验要点¶
- 对比先前工作 VGG16-O(Kasture et al.):同数据集下 VGG16-O 非增强数据仅 50% 准确率,本文 VGG16-A 达 77.78%(+27.78pp),归功于 Tensor 转换和归一化。
- ReLU vs Tanh 激活函数:InceptionV3-A (ReLU) 94.58% 显著优于 InceptionV3-B (Tanh) 82.13%。
- 三种 XAI 方法生成的解释在关键区域有共性高亮,表明黑盒解释具有一致性。
亮点¶
- 15 种模型的系统对比为医学影像领域的模型选型提供了参考
- 选模型时综合考虑了 XAI 可行性而非只追求最高精度,体现了部署导向思维
- XAI 对比分析展示了 LIME/SHAP/IG 三种方法的互补性
局限性 / 可改进方向¶
- 数据集极小(498 张原始),增强后也仅 2490 张,泛化能力存疑
- 全部使用经典 CNN,未尝试 ViT、医学预训练模型
- 缺少多中心数据验证和真实临床场景测试
- ResNet 系列表现极差(34-57%),可能与超参搜索策略和训练 epoch 不充分有关
与相关工作的对比¶
- vs Kasture et al. (VGG16-O): 同数据集,本文 VGG16-A 在增强数据上 96.99% vs 84.64%
- vs Hsu et al.: 对方用 ResNet-18/50/Xception 集成学习做超声卵巢癌检测
- vs Wang et al.: 对方用 DL 做 MRI 卵巢良恶性鉴别达 87% 准确率
启发与关联¶
- 医学小数据场景下的增强策略值得借鉴
- XAI 可解释性作为模型选型维度而非后验分析的思路有参考价值
评分¶
- 新颖性: ⭐⭐ 方法组合均为标准套路,无新架构或新技术提出
- 实验充分度: ⭐⭐ 数据集过小,缺泛化验证和统计检验
- 写作质量: ⭐⭐⭐ 结构清晰,但部分描述冗余
- 价值: ⭐⭐ 作为医学AI入门工作有一定参考,但创新和实验深度不足