Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline¶
会议: CVPR 2025
arXiv: 2411.12814
代码: https://github.com/uni-medical/IMIS-Bench
领域: 医学图像 / 交互式分割
关键词: 交互式医学图像分割, 大规模数据集, SAM微调, 密集标注, 多模态医学影像
一句话总结¶
本文提出 IMed-361M,一个包含 640 万张图像和 3.61 亿个 mask(平均每张 56 个)的大规模交互式医学图像分割基准数据集,覆盖 14 种成像模态和 204 个分割目标,并基于此开发了支持点击、边框、文本及组合交互的 IMIS 基线网络,在多个场景下超越现有视觉基础模型。
研究背景与动机¶
- 领域现状:SAM 及其衍生模型(MedSAM、SAM-Med2D)推动了交互式分割的发展,但在医学影像中的"分割一切"能力仍受限。SA-1B 自然图像数据集平均每张 100 个 mask,而医学数据集如 COSMOS 平均仅 5.7 个。
- 现有痛点:(a) 现有医学分割数据集标注稀疏——每张图像仅有少量 mask,限制了密集分割和细粒度交互能力;(b) 数据集通常局限于特定模态或任务,泛化能力差;(c) 不同 IMIS 方法的评估缺乏统一标准,可比性和可靠性差。
- 核心矛盾:医学影像基础模型需要类似 SA-1B 的大规模密集标注数据集,但医学标注成本极高,且现有整合数据集的标注密度远不够。
- 本文目标 (a) 构建大规模、多样、密集标注的 IMIS 基准数据集;(b) 建立支持多种交互策略的统一基线模型;(c) 提供公平一致的 IMIS 模型评估框架。
- 切入角度:利用 SAM 的物体识别能力自动生成密集 interactive masks,再通过 GT 引导的质量控制确保标注质量。
- 核心 idea:整合 110+ 公开数据集并用 SAM 自动生成高密度交互标注(每张图 56 个 mask),构建覆盖 14 个模态的 3.61 亿 mask 基准数据集,训练统一的多策略交互式分割基线。
方法详解¶
整体框架¶
数据构建流水线:收集 110+ 数据集 → 标准化预处理 → 冲突消歧 → SAM 自动生成 interactive masks → GT 引导的质量控制 → 最终得到 640 万图像 + 3.61 亿 mask。模型架构采用 ViT-Base 编码器 + 多策略提示编码器(点+框+文本)+ Transformer 解码器,通过模拟连续交互的训练策略进行端到端训练。
关键设计¶
-
自动 Mask 生成 + GT 引导的质量控制:
- 功能:为每张图像生成密集、高质量的交互式 mask
- 核心思路:用 SAM 的 32×32 点网格生成候选 mask,通过三重筛选:IoU 置信度 > 0.85 保留、NMS(IoU > 0.7 去重)、移除覆盖 > 80% 的背景 mask。关键的质量控制——用原始 GT 校正生成的 mask:对 GT 中的多连通区域直接替换对应生成 mask;对单连通区域,若生成 mask 的最小外接框与 GT 重叠 > 95% 则保留生成版,否则用 GT 替换。最后用形态学操作去噪填洞
- 设计动机:SAM 自动生成的 mask 常无法正确分离边界模糊的结构(如心脏的心房心室),且分散结构(如肠道)常被识别为多个独立对象。GT 引导的校正解决了这些医学特有的分割粒度问题
-
多策略提示编码器:
- 功能:支持点击、边框、文本三种交互输入及其组合
- 核心思路:点和框通过位置编码+可学习嵌入表示;文本通过 CLIP 文本编码器编码,模板为"A segmentation area of a [category]",覆盖 200+ 器官和病变类别。三种提示可以自由组合——文本提供全局语义引导,点击/框提供局部空间定位
- 设计动机:现有方法通常只支持单一交互策略,无法评估不同交互方式的影响。统一多策略设计为未来多模态分割研究提供了基准
-
模拟连续交互训练策略:
- 功能:训练模型通过多轮交互逐步改善分割结果
- 核心思路:对每张图像和目标 mask,先模拟初始交互(随机前景采样点、目标最小包围框+5px偏移),产生初始预测。然后进行 K=8 轮迭代:根据预测与 GT 的错误区域生成校正交互(新的正/负点击),同时提供上一轮的低分辨率预测 mask 作为额外线索。图像编码器仅编码一次,后续迭代只更新提示编码器和解码器参数
- 设计动机:真实临床使用中,医生会通过多次点击逐步修正分割结果。模拟这一过程使模型学会从错误中学习,提高交互效率
损失函数 / 训练策略¶
使用 Focal Loss + Dice Loss 的线性组合(20:1 比例)。Adam 优化器,学习率 \(2 \times 10^{-5}\),72 块 4090 GPU,batch size 2。每张图随机选 5 个目标(不足则重复选取),图像统一到 1024×1024,像素值 20% 概率随机缩放偏移。训练 12 个 epoch。评估使用 Dice score。
实验关键数据¶
主实验¶
外部数据集评估(bbox 提示):
| 数据集 | SAM | SAM-2 | MedSAM | SAM-Med2D | IMIS-Net |
|---|---|---|---|---|---|
| ISLES (脑卒中) | 55.92 | 60.14 | 59.90 | 68.22 | 71.78 |
| SegThor (平均) | 84.46 | 85.86 | 60.55 | 86.43 | 89.27 |
| TotalSeg MRI (平均) | 75.45 | 77.62 | 59.52 | 75.92 | 79.06 |
内部测试集(图像级/mask级统计)IMIS-Net 在点击和框两种交互下均取得最佳表现。
消融实验¶
| 解码器维度 | 图像分辨率 | 点击 Dice | 框 Dice | 可训练参数 |
|---|---|---|---|---|
| 768 | 256×256 | 0.8214 | 0.8469 | 29.68M |
| 768 | 512×512 | 0.8673 | 0.8968 | 29.68M |
| 256 | 1024×1024 | 0.8366 | 0.8497 | 5.52M |
| 512 | 1024×1024 | 0.8563 | 0.8729 | 15.19M |
| 768 | 1024×1024 | 0.8848 | 0.9060 | 29.68M |
文本+组合提示效果:
| 交互策略 | Dice |
|---|---|
| 仅文本 | 76.30% |
| 文本+点击 | 88.25% (+11.95%) |
| 文本+点击+3轮校正 | 89.69% |
关键发现¶
- 密集 mask 对性能至关重要:仅用 GT 训练效果差,加入 interactive masks 后 Dice 快速提升
- 数据规模效应显著:训练数据量增加持续带来性能提升,验证了方法的可扩展性
- 输入分辨率影响最大:256→1024 分辨率提升使 Dice 从 84.69% 提升到 90.60%
- 解码器维度从 256 到 768 仅增加 24.16M 参数但 Dice 提升约 5.6%,说明当数据足够大时,模型容量是瓶颈
- 框交互始终优于点击(提供更多边界信息),多轮交互持续缩小不同模型间的差距
- 点击位置越靠近质心效果越好,SAM-2 的 Dice 提升 2.84%;bbox 偏移导致所有方法下降 0.85%-3.94%
亮点与洞察¶
- 用 SAM 为医学图像自动生成密集标注是一个聪明的策略:利用通用模型的物体感知能力弥补医学标注的不足,再用现有 GT 校正保证质量。这个思路可以迁移到其他标注稀缺的专业领域。
- GT 引导的粒度管理解决了 SAM 在医学影像中的核心问题:处理多连通区域和边界模糊结构的替换策略很实用,体现了对医学影像特殊性的深入理解。
- 数据规模+解码器容量的 scaling 分析提供了清晰的实践指导:即使模型性能接近饱和,扩展解码器仍能获得提升,为未来工作提供了简单有效的改进路径。
局限与展望¶
- 部分 interactive masks 缺乏直接临床意义(如 X 光背景字母、皮肤镜图像中的毛发),虽增加多样性但可能引入噪声
- 仅使用 ViT-Base 编码器,更大的编码器可能进一步提升性能
- 自动生成 mask 的语义信息缺失,未来需探索如何有效获取 interactive masks 的语义标签
- 3D 医学影像仅以 2D 切片处理,未充分利用体积信息
- 质量评估显示 18 个子集的 mask 质量较差,虽已清理但可能仍有残留问题
相关工作与启发¶
- vs MedSAM: MedSAM 在大规模医学数据上微调 SAM 但仅支持 bbox 交互,且标注密度不足。IMIS-Net 支持多策略交互且 mask 密度 56/image vs MedSAM 的 ~5/image
- vs SAM-Med2D: SAM-Med2D 缺乏骨骼结构数据导致该类解剖结构分割差,IMIS-Net 通过更全面的数据覆盖解决了这一偏差
- vs SAM/SAM-2: 自然图像预训练的模型在医学影像上表现大幅落后(单点击 Dice 仅 60%),证明了领域适配的必要性
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据集构建思路有创新(SAM 自动生成+GT 校正),但模型架构基本是标准的 SAM 微调
- 实验充分度: ⭐⭐⭐⭐⭐ 多角度评估(模态、解剖结构、交互策略、点击位置、框偏移),外部数据集验证全面
- 写作质量: ⭐⭐⭐⭐ 数据集构建流程清晰,但部分内容可以更简洁
- 价值: ⭐⭐⭐⭐⭐ 3.61 亿 mask 的基准数据集将成为医学影像基础模型的重要资源
相关论文¶
- [CVPR 2025] Interactive Medical Image Analysis with Concept-based Similarity Reasoning
- [CVPR 2025] Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation
- [CVPR 2025] BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation
- [CVPR 2025] Show and Segment: Universal Medical Image Segmentation via In-Context Learning
- [CVPR 2025] Revisiting MAE Pre-Training for 3D Medical Image Segmentation