跳转至

Explainable Melanoma Diagnosis with Contrastive Learning and LLM-based Report Generation

会议: AAAI 2026
arXiv: 2512.06105
代码: https://eattt-wen.github.io/CEFM/
领域: 自监督 / 医学图像 / 可解释 AI
关键词: 黑色素瘤诊断, 对比学习, 可解释AI, ABCD规则, 报告生成

一句话总结

提出 CEFM 框架,通过跨模态对比学习将 ViT 视觉特征与基于 ABCD 规则的临床特征(不对称性、边界、颜色)对齐,再由 CLIP + DeepSeek 生成结构化诊断报告,在 ISIC 数据集上达到 92.79% 准确率和 0.961 AUC,专家评分可解释性达 4.6/5。

研究背景与动机

领域现状:深度学习在黑色素瘤分类上已达专家水平(≥90% 准确率),但模型是黑箱,缺乏可解释性,限制了临床采用。现有 XAI 方法如 Grad-CAM 仅高亮注意力区域,未与临床诊断标准(ABCD 规则)建立语义关联。

现有痛点:(a)Grad-CAM 等热力图方法不能提供临床可操作的解释——"模型看了哪里"不等于"为什么判断为恶性";(b)基于注意力的文本生成方法(如 LSTM 描述)不以诊断标准为锚点;(c)需要大量人工标注对齐的方法(如 CompA)可扩展性差。

核心矛盾:模型的高准确率与低可解释性之间的信任鸿沟——临床医生需要看到与 ABCD 诊断规则对齐的解释才会信任 AI 辅助诊断。

本文目标 设计一个框架,将深度模型的视觉特征与临床 ABC 诊断标准显式对齐,并自动生成结构化诊断报告。

切入角度:用对比学习在共享嵌入空间中对齐 ViT 视觉特征与量化的 ABC 临床特征,然后用 CLIP + LLM 生成可读报告。

核心 idea:通过跨模态对比学习将黑箱视觉特征锚定到可解释的 ABC 临床特征上,再用 LLM 翻译成自然语言诊断报告。

方法详解

整体框架

CEFM 包含四个互联的 pipeline: 1. DNN 分类管线:ViT 编码器提取视觉特征 → MLP 投影头映射到共享空间 → 分类头预测 2. 临床解释管线:UltraLight VM-UNet 粗分割 → SAM2 精细分割 → 从 mask 中计算 ABC 特征(不对称性、边界曲率、颜色变异) 3. 对比学习模块:将视觉嵌入与 ABC 临床特征对齐到共享潜空间 4. 报告生成模块:CLIP 检索视觉描述符 + DeepSeek LLM 生成结构化诊断报告

关键设计

  1. 粗到精病灶分割:

    • 功能:从皮肤镜图像中精确分割出黑色素瘤区域
    • 核心思路:第一阶段用 UltraLight VM-UNet(在 ISIC 2018 上预训练)快速产生粗 mask(DSC 0.89),第二阶段以粗 mask 为伪标签采样前景/背景点提示 SAM2,生成多个候选 mask 后选 IoU 最高的
    • 设计动机:轻量 UNet 快但边界粗糙,SAM2 精确但需要点提示——两阶段结合实现了自动化且高精度的分割
  2. ABC 临床特征量化:

    • 功能:从分割 mask 中计算三个可解释的临床指标
    • 核心思路:不对称性 A:将病灶图像沿主轴镜像翻转,计算差异像素占比 \(A = \sum|I(x,y) - I_{\text{mirror}}(x,y)| / \sum M(x,y)\)边界 B:计算病灶轮廓的平均曲率 \(B_2 = \frac{1}{N}\sum \kappa_i\),其中 \(\kappa_i = \Delta\theta_i / \Delta s_i\)颜色 C:在 HSV 空间计算色相、饱和度、亮度的标准差 \(\sigma_H, \sigma_S, \sigma_V\)
    • 设计动机:ABCD 规则是皮肤科最广泛使用的诊断标准,将其量化为数值特征可以直接与临床实践对接
  3. 跨模态对比学习对齐:

    • 功能:在共享潜空间中对齐 ViT 视觉嵌入与 ABC 临床特征
    • 核心思路:视觉编码器 \(f_v\) 提取图像特征 \(v\),MLP \(f_c\) 编码临床特征 \(u\),分别通过投影头 \(h_v, h_c\) 映射到 \(\mathbb{R}^d\),L2 归一化后用 NT-Xent 损失双向对齐。冻结 ViT 参数,仅训练投影头
    • 设计动机:对比学习天然适合跨模态对齐——让同一患者的视觉和临床嵌入接近、不同患者的远离,使视觉特征获得临床语义可解释性
  4. CLIP + DeepSeek 报告生成:

    • 功能:将量化诊断结果转化为自然语言报告
    • 核心思路:先将 ABC 数值离散为五个严重等级,同时用 CLIP-ViT-B/16 检索与图像最匹配的临床描述符(如"asymmetric shape""blue-gray areas"),将量化指标+CLIP 描述组合为 prompt 输入 DeepSeek 生成完整报告
    • 设计动机:数值指标对临床医生不够直观,需要自然语言叙述来支持决策;CLIP 补充了 ABC 特征之外的视觉线索(如溃疡、卫星灶等)

损失函数 / 训练策略

  • 对比损失:双向 NT-Xent,温度 \(\tau\) 控制相似度分布锐度
  • 训练分两步:先对比预训练对齐特征空间(冻结 ViT),再冻结投影头训练分类头
  • 分类使用 ViT 投影后的嵌入,确保分类和解释使用同一特征表示

实验关键数据

主实验

在 ISIC 2020 数据集上的分类性能:

骨干网络 准确率 AUC 精确率 特异性
ResNet50 - - - -
EfficientNet-B2 94.26% - - -
ViT (CEFM) 92.79%±0.57% 0.961±0.004 88.19% 97.15%

分割性能(UltraLight VM-UNet on ISIC 2018):DSC = 0.8909,Acc = 95.56%,Specificity = 0.9746

消融实验

配置 效果
完整 CEFM 结构化、连贯、临床完整的报告
w/o CLIP 报告仅含 ABC 数值,缺乏视觉上下文描述
w/o 临床解释 丧失 ABC 量化,仅靠视觉描述,缺乏数值解释
w/o DeepSeek 报告碎片化,丧失叙述连贯性

关键发现

  • 对比学习后正负样本对的余弦相似度分布明确分离:正对集中在 >0.75,负对集中在接近 0
  • 三位皮肤科专家评分:可解释性 4.6/5,ABC 特征分析有用性 4.4/5,临床适用性 4.0/5
  • 专家认为该框架特别适用于早期分诊、初级临床医生辅助和纵向病灶追踪
  • 排除 ABCD 中的 D(差异结构)因为缺乏精细标注——这是一个诚实的局限性承认

亮点与洞察

  • 临床标准驱动的可解释性设计思路很好:不是后验地解释黑箱,而是前置地把临床 ABC 标准嵌入模型训练过程。对比学习让视觉特征"知道"什么是不对称性和边界不规则
  • 端到端的可解释管线从分割→特征量化→对比对齐→报告生成形成完整闭环,每个环节都有明确的临床对应
  • 粗到精分割策略(轻量 UNet + SAM2)巧妙地平衡了自动化和精度

局限与展望

  • 排除了 ABCD 规则中的 D(差异结构),框架不完整
  • 分类准确率 92.79% 虽好但低于部分纯分类方法(如 EfficientNet-B0 的 97%),可解释性是以牺牲一些性能为代价的
  • 仅在 ISIC 数据集上验证,真实临床场景(低质量图像、罕见亚型)未覆盖
  • 报告生成依赖 DeepSeek 等外部 LLM,存在幻觉和不可控风险;且没有做临床准确性的系统化量化评估
  • 专家评估仅 3 位医生,样本量小

相关工作与启发

  • vs CompA (Chanda et al.):CompA 用引导注意力+Grad-CAM 对齐模型注意力与医生标注区域,但需要大量手工标注且仅提供视觉解释。CEFM 通过自动化 ABC 特征提取和 LLM 报告生成,可扩展性更强
  • vs Grad-CAM 类方法:热力图只能说"模型看了哪里",不能说"为什么判断为恶性"。CEFM 的 ABC 量化和结构化报告提供了临床可操作的解释
  • vs R2GenGPT:R2GenGPT 直接从图像特征映射到 LLM 文本空间生成报告,但没有临床标准锚定。CEFM 的对比对齐确保了视觉特征与临床语义的显式绑定

评分

  • 新颖性: ⭐⭐⭐⭐ 临床标准驱动的对比学习框架有新意,但各组件(ViT、对比学习、CLIP、LLM)都是现有技术
  • 实验充分度: ⭐⭐⭐ 分类和分割性能有数据,但消融主要是定性分析,缺乏可解释性的定量指标;专家评估样本太小
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,临床动机阐述充分,图表设计好
  • 价值: ⭐⭐⭐⭐ 为医学 AI 的可解释性提供了有意义的范式——用对比学习将模型特征与临床标准绑定

相关论文