DermaCon-IN: A Multi-concept Annotated Dermatological Image Dataset of Indian Skin Disorders¶

会议: NeurIPS 2025
arXiv: 2506.06099
代码: GitHub / Harvard Dataverse
领域: 医学图像
关键词: 皮肤病数据集, 印度肤色, 概念瓶颈模型, 层次分类, 可解释AI

一句话总结¶

构建了 DermaCon-IN——首个以印度肤色为主的密集标注皮肤病图像数据集（5,450 张 / 3,002 患者 / 245 种诊断），提供三级层次诊断标签、47 个病灶描述符和 49 个解剖位置标注，并用 CNN/ViT/概念瓶颈模型进行基准评测。

研究背景与动机¶

领域现状：皮肤病是全球第四大非致命疾病负担。AI 辅助诊断被视为解决皮肤科资源不足的重要手段，但现有模型主要在欧美数据集上训练和评估。
现有痛点：
数据集偏倚严重：ISIC、HAM10000 等聚焦黑色素瘤等肿瘤性病变，忽略真菌感染、疥疮等热带高发病种
肤色代表性不足：Fitzpatrick17k 中 75%+ 为 Type I-III（浅肤色），深色皮肤（Type IV-VI）严重欠缺
标注维度单一：多数数据集只有诊断标签，缺少解剖位置和病灶形态学描述符
数据来源偏差：SD-198、Fitzpatrick17k 来自教学图谱而非真实临床采集
核心矛盾：现有数据集的地域/肤色/病种偏倚导致 AI 模型对深肤色人群准确率下降 30-40%（DDI 数据集实验），无法公平服务全球人口
切入角度：从印度门诊前瞻性采集，构建兼具疾病覆盖广度、肤色代表性和多维标注的数据集
核心idea一句话：提供首个 South Asian 肤色为主、同时包含诊断层次 + 解剖位置 + 病灶描述符三重标注的皮肤病数据集

方法详解¶

整体框架¶

数据集构建遵循"采集→标注→质控→基准评测"pipeline。临床图像从南印度 3 家三级医院采集，4 位皮肤科认证医师采用 Rook 分类体系进行三级层次标注 + 概念标注，最终用多种架构进行分类与可解释性基准评测。

关键设计¶

三级层次诊断标签
做什么：按 Rook 皮肤病学教科书构建 8 个主类 → 19 个亚类 → 245 种具体疾病的层次分类
核心思路：主类基于病因学（感染性、炎症性、色素性、角化性等），亚类处理混合/共存状态（如炎症+真菌感染），具体标签对应 ICD-11
设计动机：反映临床诊断工作流（先判断大类再细化），支持粗粒度和细粒度两级建模。疾病标签呈长尾分布（log-normal 指数 1.8），与真实门诊频率一致
双维度概念标注（96 个概念）
47 个病灶描述符：鳞屑、红斑、水疱、色素沉着等，遵循临床皮肤科词汇标准
49 个解剖位置：头皮、手掌、足底、躯干等，保留全视野解剖上下文
设计动机：皮肤科诊断依赖病灶形态 + 解剖位置的组合推理（如头皮鳞屑→银屑病 vs 足部鳞屑→足癣），独立标注两类概念可支持概念瓶颈模型的可解释性研究
Pearson 相关分析验证了概念-疾病关联的临床合理性（如白斑↔色素障碍 r=+0.71）
概念瓶颈模型（CBM）基准
做什么：在 Swin-B 骨干网络上构建 CBM，通过概念层进行可解释性分类
架构：图像 → Swin Encoder → 概念 logits \(c^\ell \in \mathbb{R}^{B+D}\) → sigmoid → 概念向量 \(c\) → 分类器 → 诊断
探索了两种层次 CBM 设计：
- Type 1（级联）：概念 → 亚类预测 → 主类预测，保证分类一致性
- Type 2（并行）：概念同时独立预测亚类和主类，多任务学习正则化
Type 2 在所有指标上优于 Type 1

损失函数 / 训练策略¶

概念层用 BCE 损失监督 96 个概念的二分类
分类层用交叉熵 + 加权采样处理类不平衡
ImageNet-22k 预训练，input resize 到 512×512，subject-wise 80:20 分层切分

实验关键数据¶

主实验：8-主类分类¶

模型	预训练	Accuracy	Balanced Acc.	F1 Score
ResNet50	-	47.45	23.93	46.43
ResNet50	ImageNet	64.31	38.77	63.31
DenseNet121	ImageNet	65.20	37.31	64.37
ViT-B/16-384	ImageNet	66.95	35.78	65.78
Swin-B/4W12-384	ImageNet	70.41	45.06	69.69

Swin Transformer 在所有指标上一致最优。

CBM 消融实验¶

配置	Concepts	Accuracy	Macro AUC
直接 MC 分类（无 CBM）	-	70.41	78.51
CBM-D（仅描述符）	47	68.57	85.18
CBM-B（仅解剖位置）	49	68.38	84.96
CBM 全概念	96	68.12	82.78
Type 2 层次 CBM - MC	96	69.90	77.01

关键发现¶

CBM 引入概念瓶颈后准确率略降（~2%），但 Macro AUC 显著提升（78.51→85.18），说明概念层提供了更好的类间判别能力
单流概念（仅描述符或仅位置）性能相当，但合并两流时出现竞争效应——模型倾向只激活一组概念而抑制另一组
Grad-CAM 验证概念激活确实定位到语义正确的解剖区域
色素障碍和角化障碍类的概念-权重对齐（Spearman 相关）良好（p<0.05），但肿瘤类对齐差，可能因样本量不足

亮点与洞察¶

首个印度肤色密集标注数据集：同时覆盖 Fitzpatrick IV-VI 和 MST 4-9 肤色，填补了全球皮肤病 AI 公平性的关键空白
三重标注体系巧妙：诊断层次 + 病灶描述符 + 解剖位置的组合，首次在数据集层面系统化了皮肤科的临床推理路径（形态+位置→诊断）
概念竞争现象的发现（双流 CBM 中一组概念被抑制）指出了多概念学习中的表示瓶颈问题，值得后续研究
Cohen's Kappa = 0.84 的标注一致性保证了数据质量

局限性 / 可改进方向¶

面部图像因隐私脱敏（遮挡眼部/裁切）影响面部疾病的建模能力
长尾分布中稀有疾病样本极少，需要 few-shot/long-tail 学习策略
缺少像素级分割标注，无法支持病灶定位和分割任务
数据来源集中于南印度卡纳塔克邦，未覆盖北印度和东南亚其他地区
CBM 中概念竞争问题需要新的正则化或注意力机制来解决

评分¶

新颖性: ⭐⭐⭐⭐ 填补印度肤色数据空白+三重标注体系设计新颖
实验充分度: ⭐⭐⭐⭐ 多架构对比+CBM 探索+Grad-CAM 定性分析，全面
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，相关工作对比表格详尽
价值: ⭐⭐⭐⭐⭐ 数据集贡献对公平性研究和全球适用性有重要意义