Explainable Melanoma Diagnosis with Contrastive Learning and LLM-based Report Generation¶

会议: AAAI 2026
arXiv: 2512.06105
代码: https://eattt-wen.github.io/CEFM/
领域: 自监督 / 医学图像 / 可解释 AI
关键词: 黑色素瘤诊断, 对比学习, 可解释AI, ABCD规则, 报告生成

一句话总结¶

提出 CEFM 框架，通过跨模态对比学习将 ViT 视觉特征与基于 ABCD 规则的临床特征（不对称性、边界、颜色）对齐，再由 CLIP + DeepSeek 生成结构化诊断报告，在 ISIC 数据集上达到 92.79% 准确率和 0.961 AUC，专家评分可解释性达 4.6/5。

研究背景与动机¶

领域现状：深度学习在黑色素瘤分类上已达专家水平（≥90% 准确率），但模型是黑箱，缺乏可解释性，限制了临床采用。现有 XAI 方法如 Grad-CAM 仅高亮注意力区域，未与临床诊断标准（ABCD 规则）建立语义关联。

现有痛点：（a）Grad-CAM 等热力图方法不能提供临床可操作的解释——"模型看了哪里"不等于"为什么判断为恶性"；（b）基于注意力的文本生成方法（如 LSTM 描述）不以诊断标准为锚点；（c）需要大量人工标注对齐的方法（如 CompA）可扩展性差。

核心矛盾：模型的高准确率与低可解释性之间的信任鸿沟——临床医生需要看到与 ABCD 诊断规则对齐的解释才会信任 AI 辅助诊断。

本文目标 设计一个框架，将深度模型的视觉特征与临床 ABC 诊断标准显式对齐，并自动生成结构化诊断报告。

切入角度：用对比学习在共享嵌入空间中对齐 ViT 视觉特征与量化的 ABC 临床特征，然后用 CLIP + LLM 生成可读报告。

核心 idea：通过跨模态对比学习将黑箱视觉特征锚定到可解释的 ABC 临床特征上，再用 LLM 翻译成自然语言诊断报告。

方法详解¶

整体框架¶

CEFM 包含四个互联的 pipeline： 1. DNN 分类管线：ViT 编码器提取视觉特征 → MLP 投影头映射到共享空间 → 分类头预测 2. 临床解释管线：UltraLight VM-UNet 粗分割 → SAM2 精细分割 → 从 mask 中计算 ABC 特征（不对称性、边界曲率、颜色变异） 3. 对比学习模块：将视觉嵌入与 ABC 临床特征对齐到共享潜空间 4. 报告生成模块：CLIP 检索视觉描述符 + DeepSeek LLM 生成结构化诊断报告

关键设计¶

粗到精病灶分割:
- 功能：从皮肤镜图像中精确分割出黑色素瘤区域
- 核心思路：第一阶段用 UltraLight VM-UNet（在 ISIC 2018 上预训练）快速产生粗 mask（DSC 0.89），第二阶段以粗 mask 为伪标签采样前景/背景点提示 SAM2，生成多个候选 mask 后选 IoU 最高的
- 设计动机：轻量 UNet 快但边界粗糙，SAM2 精确但需要点提示——两阶段结合实现了自动化且高精度的分割
ABC 临床特征量化:
- 功能：从分割 mask 中计算三个可解释的临床指标
- 核心思路：不对称性 A：将病灶图像沿主轴镜像翻转，计算差异像素占比 \(A = \sum|I(x,y) - I_{\text{mirror}}(x,y)| / \sum M(x,y)\)；边界 B：计算病灶轮廓的平均曲率 \(B_2 = \frac{1}{N}\sum \kappa_i\)，其中 \(\kappa_i = \Delta\theta_i / \Delta s_i\)；颜色 C：在 HSV 空间计算色相、饱和度、亮度的标准差 \(\sigma_H, \sigma_S, \sigma_V\)
- 设计动机：ABCD 规则是皮肤科最广泛使用的诊断标准，将其量化为数值特征可以直接与临床实践对接
跨模态对比学习对齐:
- 功能：在共享潜空间中对齐 ViT 视觉嵌入与 ABC 临床特征
- 核心思路：视觉编码器 \(f_v\) 提取图像特征 \(v\)，MLP \(f_c\) 编码临床特征 \(u\)，分别通过投影头 \(h_v, h_c\) 映射到 \(\mathbb{R}^d\)，L2 归一化后用 NT-Xent 损失双向对齐。冻结 ViT 参数，仅训练投影头
- 设计动机：对比学习天然适合跨模态对齐——让同一患者的视觉和临床嵌入接近、不同患者的远离，使视觉特征获得临床语义可解释性
CLIP + DeepSeek 报告生成:
- 功能：将量化诊断结果转化为自然语言报告
- 核心思路：先将 ABC 数值离散为五个严重等级，同时用 CLIP-ViT-B/16 检索与图像最匹配的临床描述符（如"asymmetric shape""blue-gray areas"），将量化指标+CLIP 描述组合为 prompt 输入 DeepSeek 生成完整报告
- 设计动机：数值指标对临床医生不够直观，需要自然语言叙述来支持决策；CLIP 补充了 ABC 特征之外的视觉线索（如溃疡、卫星灶等）

损失函数 / 训练策略¶

对比损失：双向 NT-Xent，温度 \(\tau\) 控制相似度分布锐度
训练分两步：先对比预训练对齐特征空间（冻结 ViT），再冻结投影头训练分类头
分类使用 ViT 投影后的嵌入，确保分类和解释使用同一特征表示

实验关键数据¶

主实验¶

在 ISIC 2020 数据集上的分类性能：

骨干网络	准确率	AUC	精确率	特异性
ResNet50	-	-	-	-
EfficientNet-B2	94.26%	-	-	-
ViT (CEFM)	92.79%±0.57%	0.961±0.004	88.19%	97.15%

分割性能（UltraLight VM-UNet on ISIC 2018）：DSC = 0.8909，Acc = 95.56%，Specificity = 0.9746

消融实验¶

配置	效果
完整 CEFM	结构化、连贯、临床完整的报告
w/o CLIP	报告仅含 ABC 数值，缺乏视觉上下文描述
w/o 临床解释	丧失 ABC 量化，仅靠视觉描述，缺乏数值解释
w/o DeepSeek	报告碎片化，丧失叙述连贯性

关键发现¶

对比学习后正负样本对的余弦相似度分布明确分离：正对集中在 >0.75，负对集中在接近 0
三位皮肤科专家评分：可解释性 4.6/5，ABC 特征分析有用性 4.4/5，临床适用性 4.0/5
专家认为该框架特别适用于早期分诊、初级临床医生辅助和纵向病灶追踪
排除 ABCD 中的 D（差异结构）因为缺乏精细标注——这是一个诚实的局限性承认

亮点与洞察¶

临床标准驱动的可解释性设计思路很好：不是后验地解释黑箱，而是前置地把临床 ABC 标准嵌入模型训练过程。对比学习让视觉特征"知道"什么是不对称性和边界不规则
端到端的可解释管线从分割→特征量化→对比对齐→报告生成形成完整闭环，每个环节都有明确的临床对应
粗到精分割策略（轻量 UNet + SAM2）巧妙地平衡了自动化和精度

局限与展望¶

排除了 ABCD 规则中的 D（差异结构），框架不完整
分类准确率 92.79% 虽好但低于部分纯分类方法（如 EfficientNet-B0 的 97%），可解释性是以牺牲一些性能为代价的
仅在 ISIC 数据集上验证，真实临床场景（低质量图像、罕见亚型）未覆盖
报告生成依赖 DeepSeek 等外部 LLM，存在幻觉和不可控风险；且没有做临床准确性的系统化量化评估
专家评估仅 3 位医生，样本量小

评分¶

新颖性: ⭐⭐⭐⭐ 临床标准驱动的对比学习框架有新意，但各组件（ViT、对比学习、CLIP、LLM）都是现有技术
实验充分度: ⭐⭐⭐ 分类和分割性能有数据，但消融主要是定性分析，缺乏可解释性的定量指标；专家评估样本太小
写作质量: ⭐⭐⭐⭐ 框架描述清晰，临床动机阐述充分，图表设计好
价值: ⭐⭐⭐⭐ 为医学 AI 的可解释性提供了有意义的范式——用对比学习将模型特征与临床标准绑定