Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline¶

会议: CVPR 2025
arXiv: 2411.12814
代码: https://github.com/uni-medical/IMIS-Bench
领域: 医学图像 / 交互式分割
关键词: 交互式医学图像分割, 大规模数据集, SAM微调, 密集标注, 多模态医学影像

一句话总结¶

本文提出 IMed-361M，一个包含 640 万张图像和 3.61 亿个 mask（平均每张 56 个）的大规模交互式医学图像分割基准数据集，覆盖 14 种成像模态和 204 个分割目标，并基于此开发了支持点击、边框、文本及组合交互的 IMIS 基线网络，在多个场景下超越现有视觉基础模型。

研究背景与动机¶

领域现状：SAM 及其衍生模型（MedSAM、SAM-Med2D）推动了交互式分割的发展，但在医学影像中的"分割一切"能力仍受限。SA-1B 自然图像数据集平均每张 100 个 mask，而医学数据集如 COSMOS 平均仅 5.7 个。
现有痛点：(a) 现有医学分割数据集标注稀疏——每张图像仅有少量 mask，限制了密集分割和细粒度交互能力；(b) 数据集通常局限于特定模态或任务，泛化能力差；(c) 不同 IMIS 方法的评估缺乏统一标准，可比性和可靠性差。
核心矛盾：医学影像基础模型需要类似 SA-1B 的大规模密集标注数据集，但医学标注成本极高，且现有整合数据集的标注密度远不够。
本文目标 (a) 构建大规模、多样、密集标注的 IMIS 基准数据集；(b) 建立支持多种交互策略的统一基线模型；(c) 提供公平一致的 IMIS 模型评估框架。
切入角度：利用 SAM 的物体识别能力自动生成密集 interactive masks，再通过 GT 引导的质量控制确保标注质量。
核心 idea：整合 110+ 公开数据集并用 SAM 自动生成高密度交互标注（每张图 56 个 mask），构建覆盖 14 个模态的 3.61 亿 mask 基准数据集，训练统一的多策略交互式分割基线。

方法详解¶

整体框架¶

数据构建流水线：收集 110+ 数据集 → 标准化预处理 → 冲突消歧 → SAM 自动生成 interactive masks → GT 引导的质量控制 → 最终得到 640 万图像 + 3.61 亿 mask。模型架构采用 ViT-Base 编码器 + 多策略提示编码器（点+框+文本）+ Transformer 解码器，通过模拟连续交互的训练策略进行端到端训练。

关键设计¶

自动 Mask 生成 + GT 引导的质量控制:
- 功能：为每张图像生成密集、高质量的交互式 mask
- 核心思路：用 SAM 的 32×32 点网格生成候选 mask，通过三重筛选：IoU 置信度 > 0.85 保留、NMS（IoU > 0.7 去重）、移除覆盖 > 80% 的背景 mask。关键的质量控制——用原始 GT 校正生成的 mask：对 GT 中的多连通区域直接替换对应生成 mask；对单连通区域，若生成 mask 的最小外接框与 GT 重叠 > 95% 则保留生成版，否则用 GT 替换。最后用形态学操作去噪填洞
- 设计动机：SAM 自动生成的 mask 常无法正确分离边界模糊的结构（如心脏的心房心室），且分散结构（如肠道）常被识别为多个独立对象。GT 引导的校正解决了这些医学特有的分割粒度问题
多策略提示编码器:
- 功能：支持点击、边框、文本三种交互输入及其组合
- 核心思路：点和框通过位置编码+可学习嵌入表示；文本通过 CLIP 文本编码器编码，模板为"A segmentation area of a [category]"，覆盖 200+ 器官和病变类别。三种提示可以自由组合——文本提供全局语义引导，点击/框提供局部空间定位
- 设计动机：现有方法通常只支持单一交互策略，无法评估不同交互方式的影响。统一多策略设计为未来多模态分割研究提供了基准
模拟连续交互训练策略:
- 功能：训练模型通过多轮交互逐步改善分割结果
- 核心思路：对每张图像和目标 mask，先模拟初始交互（随机前景采样点、目标最小包围框+5px偏移），产生初始预测。然后进行 K=8 轮迭代：根据预测与 GT 的错误区域生成校正交互（新的正/负点击），同时提供上一轮的低分辨率预测 mask 作为额外线索。图像编码器仅编码一次，后续迭代只更新提示编码器和解码器参数
- 设计动机：真实临床使用中，医生会通过多次点击逐步修正分割结果。模拟这一过程使模型学会从错误中学习，提高交互效率

损失函数 / 训练策略¶

使用 Focal Loss + Dice Loss 的线性组合（20:1 比例）。Adam 优化器，学习率 \(2 \times 10^{-5}\)，72 块 4090 GPU，batch size 2。每张图随机选 5 个目标（不足则重复选取），图像统一到 1024×1024，像素值 20% 概率随机缩放偏移。训练 12 个 epoch。评估使用 Dice score。

实验关键数据¶

主实验¶

外部数据集评估（bbox 提示）：

数据集	SAM	SAM-2	MedSAM	SAM-Med2D	IMIS-Net
ISLES (脑卒中)	55.92	60.14	59.90	68.22	71.78
SegThor (平均)	84.46	85.86	60.55	86.43	89.27
TotalSeg MRI (平均)	75.45	77.62	59.52	75.92	79.06

内部测试集（图像级/mask级统计）IMIS-Net 在点击和框两种交互下均取得最佳表现。

消融实验¶

解码器维度	图像分辨率	点击 Dice	框 Dice	可训练参数
768	256×256	0.8214	0.8469	29.68M
768	512×512	0.8673	0.8968	29.68M
256	1024×1024	0.8366	0.8497	5.52M
512	1024×1024	0.8563	0.8729	15.19M
768	1024×1024	0.8848	0.9060	29.68M

文本+组合提示效果：

交互策略	Dice
仅文本	76.30%
文本+点击	88.25% (+11.95%)
文本+点击+3轮校正	89.69%

关键发现¶

密集 mask 对性能至关重要：仅用 GT 训练效果差，加入 interactive masks 后 Dice 快速提升
数据规模效应显著：训练数据量增加持续带来性能提升，验证了方法的可扩展性
输入分辨率影响最大：256→1024 分辨率提升使 Dice 从 84.69% 提升到 90.60%
解码器维度从 256 到 768 仅增加 24.16M 参数但 Dice 提升约 5.6%，说明当数据足够大时，模型容量是瓶颈
框交互始终优于点击（提供更多边界信息），多轮交互持续缩小不同模型间的差距
点击位置越靠近质心效果越好，SAM-2 的 Dice 提升 2.84%；bbox 偏移导致所有方法下降 0.85%-3.94%

亮点与洞察¶

用 SAM 为医学图像自动生成密集标注是一个聪明的策略：利用通用模型的物体感知能力弥补医学标注的不足，再用现有 GT 校正保证质量。这个思路可以迁移到其他标注稀缺的专业领域。
GT 引导的粒度管理解决了 SAM 在医学影像中的核心问题：处理多连通区域和边界模糊结构的替换策略很实用，体现了对医学影像特殊性的深入理解。
数据规模+解码器容量的 scaling 分析提供了清晰的实践指导：即使模型性能接近饱和，扩展解码器仍能获得提升，为未来工作提供了简单有效的改进路径。

局限与展望¶

部分 interactive masks 缺乏直接临床意义（如 X 光背景字母、皮肤镜图像中的毛发），虽增加多样性但可能引入噪声
仅使用 ViT-Base 编码器，更大的编码器可能进一步提升性能
自动生成 mask 的语义信息缺失，未来需探索如何有效获取 interactive masks 的语义标签
3D 医学影像仅以 2D 切片处理，未充分利用体积信息
质量评估显示 18 个子集的 mask 质量较差，虽已清理但可能仍有残留问题

评分¶

新颖性: ⭐⭐⭐⭐ 数据集构建思路有创新（SAM 自动生成+GT 校正），但模型架构基本是标准的 SAM 微调
实验充分度: ⭐⭐⭐⭐⭐ 多角度评估（模态、解剖结构、交互策略、点击位置、框偏移），外部数据集验证全面
写作质量: ⭐⭐⭐⭐ 数据集构建流程清晰，但部分内容可以更简洁
价值: ⭐⭐⭐⭐⭐ 3.61 亿 mask 的基准数据集将成为医学影像基础模型的重要资源