Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI¶

会议: CVPR 2026
arXiv: 2603.11818
代码: 无
领域: 医学图像分类 / 可解释AI
关键词: 卵巢癌检测、CNN对比、可解释AI、组织病理学、InceptionV3

一句话总结¶

系统对比 15 种 CNN 变体在卵巢癌组织病理图像五分类上的表现，选出 InceptionV3-A（ReLU）达 94% 综合指标后，用 LIME/SHAP/Integrated Gradients 三种 XAI 方法解释其决策。

背景与动机¶

卵巢癌是全球女性第 7 常见癌症，致死率高，核心难题在于缺乏有效的早期筛查手段——不像乳腺癌有乳腺X光、宫颈癌有 Pap 试验，卵巢癌仅能通过侵入性活检确诊。现有非侵入方法（经阴道超声、CA-125 血检、盆腔检查）准确率不足。深度学习已在多种癌症检测中取得进展，但卵巢癌的 DL 方案仍有限，且临床采纳需要模型可解释性支撑信任。

核心问题¶

如何在小规模卵巢癌组织病理数据上构建高准确率分类模型，并通过 XAI 为临床决策提供透明依据？

方法详解¶

整体框架¶

从 Mendeley 数据集获取 5 类（Clear Cell、Endometri、Mucinous、Non Cancerous、Serous）共 498 张组织病理图像。经数据增强扩充至 2490 张后，系统训练 15 种 CNN 变体，选出最佳模型后叠加 XAI 解释。

关键设计¶

数据增强管线: 使用 Albumentations 库做旋转（最高 180 度）、水平/垂直翻转、亮度/对比度/饱和度/色调随机变换，每张图产生 4 张增强图像，从 498 扩至 2490 张。图像转为 Tensor 后将 RGB 值从 0-255 归一化到 0-1。
15 种 CNN 变体系统对比: LeNet 系列 3 种（基础/+Dropout/+Step Decay）、ResNet 系列 4 种（ResNet-34 两种分辨率/50/101，用随机搜索调学习率和 Dropout）、VGG 系列 4 种（VGG16 三种变体+VGG19，均为迁移学习）、Inception 系列 4 种（V1 两种激活+V3 两种激活，从头训练）。
XAI 三方法对比: 在最终选定模型上分别应用 LIME（局部可解释）、Integrated Gradients（梯度归因）和 SHAP（Shapley 值），对预测区域做对比分析，三种方法的高亮区域存在共性，验证了解释一致性。

损失函数 / 训练策略¶

分类任务使用 Softmax 输出层 + 交叉熵损失。训练集-测试集 80:20 随机划分。LeNet 系列训练 100 epoch；ResNet 通过随机搜索确定最优超参；VGG 使用 ImageNet 预训练权重冻结特征层只训练全连接层；Inception 从头训练 80 epoch。

实验关键数据¶

模型	Accuracy	Precision	Recall	F1-Score
VGG19 (迁移学习)	97.19%	97.31%	97.19%	97.20%
VGG16-A (迁移学习)	96.99%	96.98%	96.99%	96.97%
InceptionV3-A (选用)	94.58%	94.75%	94.58%	94.62%
InceptionV1-B	85.74%	86.26%	85.74%	85.42%
LeNet-A	61.85%	62.20%	61.85%	61.96%
ResNet-34_224	57.03%	59.39%	57.03%	57.70%
ResNet-50	34.14%	47.75%	34.14%	33.47%

VGG 系列虽然分数最高，但因迁移学习的黑盒特征层使 XAI 难以有效解释而被排除；InceptionV3-A 作为从头训练的最高分模型被最终选用。

消融实验要点¶

对比先前工作 VGG16-O（Kasture et al.）：同数据集下 VGG16-O 非增强数据仅 50% 准确率，本文 VGG16-A 达 77.78%（+27.78pp），归功于 Tensor 转换和归一化。
ReLU vs Tanh 激活函数：InceptionV3-A (ReLU) 94.58% 显著优于 InceptionV3-B (Tanh) 82.13%。
三种 XAI 方法生成的解释在关键区域有共性高亮，表明黑盒解释具有一致性。

亮点¶

15 种模型的系统对比为医学影像领域的模型选型提供了参考
选模型时综合考虑了 XAI 可行性而非只追求最高精度，体现了部署导向思维
XAI 对比分析展示了 LIME/SHAP/IG 三种方法的互补性

局限性 / 可改进方向¶

数据集极小（498 张原始），增强后也仅 2490 张，泛化能力存疑
全部使用经典 CNN，未尝试 ViT、医学预训练模型
缺少多中心数据验证和真实临床场景测试
ResNet 系列表现极差（34-57%），可能与超参搜索策略和训练 epoch 不充分有关

与相关工作的对比¶

vs Kasture et al. (VGG16-O): 同数据集，本文 VGG16-A 在增强数据上 96.99% vs 84.64%
vs Hsu et al.: 对方用 ResNet-18/50/Xception 集成学习做超声卵巢癌检测
vs Wang et al.: 对方用 DL 做 MRI 卵巢良恶性鉴别达 87% 准确率

启发与关联¶

医学小数据场景下的增强策略值得借鉴
XAI 可解释性作为模型选型维度而非后验分析的思路有参考价值

评分¶

新颖性: ⭐⭐ 方法组合均为标准套路，无新架构或新技术提出
实验充分度: ⭐⭐ 数据集过小，缺泛化验证和统计检验
写作质量: ⭐⭐⭐ 结构清晰，但部分描述冗余
价值: ⭐⭐ 作为医学AI入门工作有一定参考，但创新和实验深度不足