MEDISEG: 药物图像实例分割数据集——预防不良药物事件¶

会议: CVPR 2026
arXiv: 2603.10825
代码: https://github.com/williamcwi/MEDISEG
领域: 实例分割 / 医学图像 / 数据集
关键词: 药物识别, 实例分割, few-shot检测, 数据集, 用药安全

一句话总结¶

构建了MEDISEG药物图像实例分割数据集（8262张图像，32类药片，含遮挡/重叠的真实场景），用YOLOv8/v9验证在3类上达99.5% mAP@0.5、32类达80.1%，并通过FsDet few-shot协议证明MEDISEG预训练比CURE数据集在遮挡场景中显著提升未见药片类别的识别（1-shot准确率0.406 vs 0.131）。

背景与动机¶

用药错误和不良药物事件(ADE)严重威胁患者安全，尤其是老年多药联用人群（75-85岁超1/3每天服用5种以上处方药）。AI药片识别是有前景的解决方案，但现有数据集（NIH Pillbox、CURE、Lee等）存在关键不足：(1) 大多为单药片、受控环境拍摄的图像，不反映真实场景；(2) 缺乏实例分割标注（如NIH Pillbox无标签、CURE仅部分标注）；(3) 忽略真实场景中的药片重叠、遮挡、dosette盒等复杂情况。需要一个包含多药片场景和完整实例分割标注的真实数据集。

核心问题¶

如何构建一个既捕获真实世界药物场景复杂性（重叠、遮挡、多药片）又提供完整实例分割标注的药片图像数据集？以及该数据集能否在少样本场景下产生可迁移的视觉表示？

方法详解¶

整体框架¶

MEDISEG数据集分两个子集：3-Pills（2333张，3类药片）和32-Pills（8262张，32类药片）。采集-标注-验证-评估的pipeline：iPhone 12 Pro Max拍摄 → dosette盒裁切 → 640×640统一分辨率 → COCO Annotator手工标注实例分割mask → YOLOv8/v9训练验证 → FsDet few-shot评估。

关键设计¶

真实场景采集策略: 使用标准四排七列dosette药盒排列药片，自然产生重叠/遮挡/背景混乱。变化光照强度和角度产生真实阴影、反射和高光。每张图像含1-11粒药片。
细粒度类别设计: 32类药片中故意包含视觉相似的类别（如多种白色小药片，形状相似但颜色不同的药片），迫使模型学习精细区分能力而非粗粒度特征。
Few-shot评估协议: 基于FsDet（Faster R-CNN + ResNet + FPN），base类和novel类严格分离。在base阶段分别用MEDISEG和CURE训练，然后在1/5/10-shot设置下fine-tune novel类，在"仅遮挡"测试集上评估——专门测试遮挡/重叠场景下的泛化能力。

损失函数 / 训练策略¶

YOLOv8/v9: 用遗传算法做70轮超参搜索（优化lr、momentum、weight decay等），fitness score定义为(top-1 acc + top-5 acc)/2，最优fitness=0.81253
数据分割: 70% train / 20% val / 10% test
Few-shot: backbone+RPN冻结，仅fine-tune ROI heads，分类层重初始化

实验关键数据¶

数据集	模型	mAP@50	mAP@50-95	Precision	Recall
3-Pills	YOLOv8	99.4%	95.0%	99.7%	99.7%
3-Pills	YOLOv9	99.5%	96.5%	99.6%	99.8%
32-Pills	YOLOv8	62.2%	50.9%	62.8%	57.4%
32-Pills	YOLOv9	80.1%	68.4%	81.2%	73.7%

Few-shot设置	MEDISEG fg_cls_acc	CURE fg_cls_acc	提升倍数
1-shot	0.406	0.131	3.1×
5-shot	0.625	0.372	1.7×
10-shot	0.740	0.558	1.3×

消融实验要点¶

YOLOv9在32-Pills上显著优于YOLOv8（mAP@50: 80.1% vs 62.2%），说明更强的特征融合对细粒度识别至关重要
误分类主要来源于视觉相似药片的侧视图（如Pill B和Pill C俯视图可区分但侧面极其相似）
Few-shot性能差异在"仅遮挡"测试集上最为显著——MEDISEG的多药片场景预训练赋予了更好的遮挡鲁棒性
随着shot数增加，CURE和MEDISEG的差距在缩小（3.1×→1.3×），说明MEDISEG的优势主要体现在极限低数据场景

亮点¶

数据集设计理念好: 刻意制造视觉相似类别和真实遮挡场景，不是简单的数据量堆积
Few-shot评估不只看标准测试集，专门构造了"仅遮挡"子集来测极端情况
CC BY 4.0开放协议 + 标准COCO格式 + GitHub代码 = 易用性好
验证了一个有趣发现: 训练数据的场景复杂度（而非纯数量）对few-shot泛化至关重要

局限性 / 可改进方向¶

32类药片数量偏少，实际临床中药物种类数以千计
仅用iPhone 12拍摄，未验证跨设备泛化（不同手机型号/相机）
动态光照、不同背景的变化仍然有限
仅评估了目标检测，未在语义分割/实例分割任务上做完整评估
未做临床环境中的前瞻性验证

与相关工作的对比¶

vs NIH Pillbox: 最大的药片数据集(133K consumer images)但已停止维护且无实例分割标注。MEDISEG规模小但标注更完整，且包含多药片场景
vs CURE: 最接近的竞争者，有部分实例分割标注但不完整且含合成图像。MEDISEG的few-shot实验直接证明了在真实遮挡场景上的优势
vs Tan et al.: 5131图+BBox标注，但仅限受控单药片环境

启发与关联¶

这是一篇数据集贡献论文，方法创新有限但实用价值高
与我的研究方向无直接关联
Few-shot评估协议设计值得参考——构造针对性难例子集比在标准测试集上报告数字更有说服力

评分¶

新颖性: ⭐⭐⭐ 数据集贡献为主，方法上无显著创新，但数据集设计理念（细粒度+遮挡+few-shot评估）有思考
实验充分度: ⭐⭐⭐⭐ 多模型+多子集+few-shot评估+超参搜索，验证较扎实
写作质量: ⭐⭐⭐⭐ 数据集论文的标准写法，结构清晰，表格详尽
价值: ⭐⭐ 对药物安全AI领域有实际价值，但对我的研究方向帮助有限