跳转至

MEDISEG: 药物图像实例分割数据集——预防不良药物事件

会议: CVPR 2026
arXiv: 2603.10825
代码: https://github.com/williamcwi/MEDISEG
领域: 实例分割 / 医学图像 / 数据集
关键词: 药物识别, 实例分割, few-shot检测, 数据集, 用药安全

一句话总结

构建了MEDISEG药物图像实例分割数据集(8262张图像,32类药片,含遮挡/重叠的真实场景),用YOLOv8/v9验证在3类上达99.5% mAP@0.5、32类达80.1%,并通过FsDet few-shot协议证明MEDISEG预训练比CURE数据集在遮挡场景中显著提升未见药片类别的识别(1-shot准确率0.406 vs 0.131)。

背景与动机

用药错误和不良药物事件(ADE)严重威胁患者安全,尤其是老年多药联用人群(75-85岁超1/3每天服用5种以上处方药)。AI药片识别是有前景的解决方案,但现有数据集(NIH Pillbox、CURE、Lee等)存在关键不足:(1) 大多为单药片、受控环境拍摄的图像,不反映真实场景;(2) 缺乏实例分割标注(如NIH Pillbox无标签、CURE仅部分标注);(3) 忽略真实场景中的药片重叠、遮挡、dosette盒等复杂情况。需要一个包含多药片场景和完整实例分割标注的真实数据集。

核心问题

如何构建一个既捕获真实世界药物场景复杂性(重叠、遮挡、多药片)又提供完整实例分割标注的药片图像数据集?以及该数据集能否在少样本场景下产生可迁移的视觉表示?

方法详解

整体框架

MEDISEG数据集分两个子集:3-Pills(2333张,3类药片)和32-Pills(8262张,32类药片)。采集-标注-验证-评估的pipeline:iPhone 12 Pro Max拍摄 → dosette盒裁切 → 640×640统一分辨率 → COCO Annotator手工标注实例分割mask → YOLOv8/v9训练验证 → FsDet few-shot评估。

关键设计

  1. 真实场景采集策略: 使用标准四排七列dosette药盒排列药片,自然产生重叠/遮挡/背景混乱。变化光照强度和角度产生真实阴影、反射和高光。每张图像含1-11粒药片。
  2. 细粒度类别设计: 32类药片中故意包含视觉相似的类别(如多种白色小药片,形状相似但颜色不同的药片),迫使模型学习精细区分能力而非粗粒度特征。
  3. Few-shot评估协议: 基于FsDet(Faster R-CNN + ResNet + FPN),base类和novel类严格分离。在base阶段分别用MEDISEG和CURE训练,然后在1/5/10-shot设置下fine-tune novel类,在"仅遮挡"测试集上评估——专门测试遮挡/重叠场景下的泛化能力。

损失函数 / 训练策略

  • YOLOv8/v9: 用遗传算法做70轮超参搜索(优化lr、momentum、weight decay等),fitness score定义为(top-1 acc + top-5 acc)/2,最优fitness=0.81253
  • 数据分割: 70% train / 20% val / 10% test
  • Few-shot: backbone+RPN冻结,仅fine-tune ROI heads,分类层重初始化

实验关键数据

数据集 模型 mAP@50 mAP@50-95 Precision Recall
3-Pills YOLOv8 99.4% 95.0% 99.7% 99.7%
3-Pills YOLOv9 99.5% 96.5% 99.6% 99.8%
32-Pills YOLOv8 62.2% 50.9% 62.8% 57.4%
32-Pills YOLOv9 80.1% 68.4% 81.2% 73.7%
Few-shot设置 MEDISEG fg_cls_acc CURE fg_cls_acc 提升倍数
1-shot 0.406 0.131 3.1×
5-shot 0.625 0.372 1.7×
10-shot 0.740 0.558 1.3×

消融实验要点

  • YOLOv9在32-Pills上显著优于YOLOv8(mAP@50: 80.1% vs 62.2%),说明更强的特征融合对细粒度识别至关重要
  • 误分类主要来源于视觉相似药片的侧视图(如Pill B和Pill C俯视图可区分但侧面极其相似)
  • Few-shot性能差异在"仅遮挡"测试集上最为显著——MEDISEG的多药片场景预训练赋予了更好的遮挡鲁棒性
  • 随着shot数增加,CURE和MEDISEG的差距在缩小(3.1×→1.3×),说明MEDISEG的优势主要体现在极限低数据场景

亮点

  • 数据集设计理念好: 刻意制造视觉相似类别和真实遮挡场景,不是简单的数据量堆积
  • Few-shot评估不只看标准测试集,专门构造了"仅遮挡"子集来测极端情况
  • CC BY 4.0开放协议 + 标准COCO格式 + GitHub代码 = 易用性好
  • 验证了一个有趣发现: 训练数据的场景复杂度(而非纯数量)对few-shot泛化至关重要

局限性 / 可改进方向

  • 32类药片数量偏少,实际临床中药物种类数以千计
  • 仅用iPhone 12拍摄,未验证跨设备泛化(不同手机型号/相机)
  • 动态光照、不同背景的变化仍然有限
  • 仅评估了目标检测,未在语义分割/实例分割任务上做完整评估
  • 未做临床环境中的前瞻性验证

与相关工作的对比

  • vs NIH Pillbox: 最大的药片数据集(133K consumer images)但已停止维护且无实例分割标注。MEDISEG规模小但标注更完整,且包含多药片场景
  • vs CURE: 最接近的竞争者,有部分实例分割标注但不完整且含合成图像。MEDISEG的few-shot实验直接证明了在真实遮挡场景上的优势
  • vs Tan et al.: 5131图+BBox标注,但仅限受控单药片环境

启发与关联

  • 这是一篇数据集贡献论文,方法创新有限但实用价值高
  • 与我的研究方向无直接关联
  • Few-shot评估协议设计值得参考——构造针对性难例子集比在标准测试集上报告数字更有说服力

评分

  • 新颖性: ⭐⭐⭐ 数据集贡献为主,方法上无显著创新,但数据集设计理念(细粒度+遮挡+few-shot评估)有思考
  • 实验充分度: ⭐⭐⭐⭐ 多模型+多子集+few-shot评估+超参搜索,验证较扎实
  • 写作质量: ⭐⭐⭐⭐ 数据集论文的标准写法,结构清晰,表格详尽
  • 价值: ⭐⭐ 对药物安全AI领域有实际价值,但对我的研究方向帮助有限