MultiverSeg: Scalable Interactive Segmentation of Biomedical Imaging Datasets with In-Context Guidance¶

会议: ICCV 2025
arXiv: 2412.15058
代码: multiverseg.csail.mit.edu
领域: 医学图像
关键词: 交互式分割, 上下文学习, 生物医学图像, 数据集标注, 渐进式分割

一句话总结¶

提出 MultiverSeg，一个渐进式交互分割系统：用户每标注一张图像，后续图像所需的交互次数就会减少，通过将已分割图像作为上下文输入模型实现"越用越好"的效果，在 12 个未见数据集上相比 ScribblePrompt 将点击数减少 36%、涂鸦步骤减少 25%。

研究背景与动机¶

问题定义¶

生物医学研究者和临床医生经常需要对一组相关图像执行新的分割任务。现有方法要么是交互式的（每张图像都需要大量人工操作），要么需要已有的标注数据集。对于一个包含数十到数百张图像的新数据集，理想的系统应该能从标注经验中"学习"，随着标注量的增加逐渐减少所需的人工交互。

已有方法的不足¶

交互式分割方法（SAM、ScribblePrompt 等）：虽然能泛化到新任务，但每张图像的标注是独立的，无法利用已完成的标注来加速后续图像的分割。标注一个数据集的总工作量与图像数量成线性关系。

上下文学习方法（UniverSeg 等）：能利用已标注的上下文集进行推理，但通常需要较大的上下文集才能取得良好效果，且没有纠错机制——如果预测不准确，用户无法通过交互来修正。

持续学习/微调方法（MonaiLabel、nnUNet 等）：需要先手动标注大量训练数据，然后训练一个自动分割模型。这需要机器学习专业知识和计算资源，不适合一般的生物医学研究场景。

核心动机¶

关键洞察：在标注一个新数据集时，已完成的分割应该能够帮助后续图像的分割。将交互式分割与上下文学习结合起来，就能实现"渐进式分割"——第一张图像纯靠交互，之后每标注一张，后续图像需要的交互就越来越少，甚至降为零。这种方式使得标注数据集的总工作量不再与图像数量成线性关系。

方法详解¶

整体框架¶

MultiverSeg 是一个交互式上下文分割框架，其核心工作流程如下：

用户用交互方式（点击、框选、涂鸦）分割第一张图像
完成的图像-分割对加入上下文集
对下一张图像，模型同时利用用户交互和上下文集进行预测
随着上下文集增长，每张新图像所需的交互次数减少

关键设计¶

1. 交互式上下文分割网络¶

功能：接收目标图像、用户交互（点击/框选/涂鸦）和可变大小的上下文集（已分割的图像-分割对），输出分割预测。
核心思路：

目标图像输入 $q_i$ 包括 5 个通道：目标图像 $x_i$、交互掩码 $u_{i,j}$（正/负涂鸦、点击各一个通道）和上一步预测 $\hat{y}_{i,j-1}$。上下文集 $\{(x_l, y_l)\}_{l=1}^{m}$ 中每个样本由图像和分割图堆叠组成。

网络采用 UNet 编码器-解码器结构，在每个尺度上用 CrossBlock 机制融合目标图像特征和上下文集特征：

$$z_i = \text{LN}(A(\text{Conv}(q \| v_i; \theta_z)))$$ $$q' = \text{LN}(A(\text{Conv}(\frac{1}{n}\sum_{i=1}^{n} z_i; \theta_q)))$$ $$v_i' = \text{LN}(A(\text{Conv}(z_i; \theta_v)))$$

其中 $q$ 是目标特征，$V = \{v_i\}$ 是上下文特征。CrossBlock 在每个分辨率层都执行，使得信息在所有尺度上交互。

设计动机：CrossBlock 使目标图像能在每个尺度上从上下文集中检索相关信息，同时上下文集的特征也能适应当前目标。加入 LayerNorm 提高了训练稳定性（相比原始 UniverSeg 的 CrossBlock）。

2. 渐进式数据集分割协议¶

功能：定义了如何在实际使用中从零开始分割一个新数据集。
核心思路：

对于第一张图像（上下文集为空），使用预训练的 ScribblePrompt-UNet $g_\phi$ 进行纯交互式分割。对于后续图像 $i > 0$，使用带上下文的模型 $f_\theta$：

$$\hat{y}_{i,j} = f_\theta(x_i^t, u_{i,j}^t, \hat{y}_{i,j-1}^t; S_i^t)$$

其中 $S_i^t = \{(x_l^t, \hat{y}_{l,k_l}^t)\}_{l=0}^{i-1}$ 是之前已分割图像构成的上下文集。

优化目标是最大化整个数据集的分割质量同时最小化总交互次数：

$$\min \sum_{i=1}^{N} \mathcal{L}_{seg}(y_i^t, \hat{y}_{i,k_i}^t), \quad \text{同时最小化} \sum_{i=1}^{N} \sum_{j=1}^{k_i} u_{i,j}^t$$

设计动机：将数据集分割定义为一个整体优化问题，而不是独立处理每张图像。这一框架使得前面图像的标注工作能"摊销"到后续所有图像中。

3. 多任务训练与数据增强策略¶

功能：在 79 个多样化的生物医学数据集上训练统一模型。
核心思路：

训练时模拟完整的交互分割流程。每步采样一个任务 $t$、一个目标样本 $(x_i^t, y_i^t)$、一个随机大小 $n \sim U[0, 64]$ 的上下文集 $S_i^t$。损失函数对 $k$ 步迭代预测求和：

$$\mathcal{L}(\theta; \mathcal{T}) = \mathbb{E}_{t \in \mathcal{T}} \left[ \mathbb{E}_{(x_i^t, y_i^t; S^t) \in t} \left[ \sum_{j=1}^{k} \mathcal{L}_{seg}(y_i^t, \hat{y}_{i,j}^t) \right] \right]$$

交互模拟策略：第一步随机组合框选、点击和涂鸦（1-3 个正交互、0-3 个负交互），后续步骤从误差区域 $\varepsilon_{i-1}^t$ 中采样纠正交互。

数据增强包括两个层次：任务增强（对目标和上下文同一变换，改变分割任务本身）和样本增强（对目标和上下文各自独立增强，增加同一任务内的变异性）。

合成数据生成（概率 $p_{synth}=0.5$）：从单张图像用超像素算法生成合成标签，通过复制+强增强生成一组合成"任务"。

设计动机：随机大小的上下文集训练使模型能处理从 0 到 64 个上下文样本的任何场景。合成任务增加了训练任务的多样性，帮助模型学会在不同结构上进行上下文推理。

损失函数 / 训练策略¶

分割损失：Soft Dice Loss + Focal Loss（$\gamma=20$），对 $k=3$ 步迭代预测分别计算
优化器：Adam，学习率 $\eta = 10^{-4}$
批量大小：2，上下文集大小 $m \sim U[0, 64]$
预测后处理：推理时将预测阈值化为 0/1 后再加入上下文集（提高后续预测质量）

实验关键数据¶

主实验¶

在 12 个未见数据集（覆盖 8 种模态、187 个分割任务）上评估，目标 Dice 为 90%（全监督 nnUNet 在相同数据上平均 Dice 为 88.67%）。

点击交互（Center Clicks）达到 90% Dice 所需总交互次数：

方法	总点击数/图	减少比例	是否利用上下文
SAM	~8.5	—	否
MedSAM	平均 Dice 65.93%	无法达标	否
ScribblePrompt	~5.2	基线	否
SP+UVS	~4.5	↓13.5%	是（UniverSeg）
MultiverSeg	~3.3	↓36.4%	是

涂鸦交互（Centerline Scribbles）达到 90% Dice 所需总步骤数：

方法	涂鸦步数/图	减少比例
ScribblePrompt	~3.8	基线
SP+UVS	~3.2	↓15.8%
MultiverSeg	~2.8	↓25.3%

消融实验¶

上下文集大小对分割质量的影响（无交互，纯上下文推理，使用 GT 上下文标签）：

上下文集大小	MultiverSeg Dice	UniverSeg Dice
1	~62%	~45%
4	~72%	~60%
16	~78%	~68%
64	~80%	~72%

交互+上下文的协同效果（不同上下文集大小下，交互步骤后的 Dice）：

上下文集大小	0步交互	1步点击	3步点击	5步点击
0	~0%	~65%	~80%	~88%
4	~72%	~80%	~88%	~92%
16	~78%	~85%	~90%	~93%
64	~80%	~86%	~91%	~93%

关键发现¶

交互需求随数据集增长递减：第 2 张图像需要 ~5 次点击达到 90% Dice，第 18 张仅需 ~1 次，近乎自动分割
两种信息来源互补：上下文提供任务先验，交互提供精确纠正，二者协同效果远超各自单独使用
推理时无需重训练：推理速度 <0.15 秒（64 样本上下文），远快于微调方案（单任务 20 分钟 A100）
对预测质量的鲁棒性：即使上下文集中使用预测分割（非 GT），仍能显著减少交互需求
数据集规模越大收益越大：随着标注图像增多，平均每张图像的边际交互成本趋近于零

亮点与洞察¶

问题框架的转变：将分割从"逐图独立标注"转变为"数据集级别的渐进标注"，本质上引入了标注成本的"摊销分析"思维
上下文学习+交互的统一：首次将两种范式融合到同一模型中，且通过可变大小上下文集训练优雅地处理了从 0 到 64 的全范围场景
实用性极强：不需要 ML 专业知识、不需要 GPU 训练、不需要已有标注数据，适合临床研究者直接使用
训练策略的巧妙性：合成任务生成（从单张图像构造"任务"）极大扩展了训练任务多样性

局限与展望¶

上下文图像差异大时效果下降：如果数据集中图像组成差异很大（如 BUID 乳腺超声），小上下文集时可能不如纯交互方法
仅支持 2D 分割：3D 模态需要先转为 2D 切片处理，丢失了体积方向的上下文信息
上下文集排序未优化：当前随机顺序添加标注图像，主动选择"最有信息量"的图像可能进一步减少总交互量
二值分割限制：每次只处理一个前景类别，多标签同时分割需要多次运行

评分¶

新颖性: ⭐⭐⭐⭐ — 交互式分割+上下文学习的融合虽然概念简洁，但之前没有方法能同时做到，CrossBlock 的设计和训练策略扎实
实验充分度: ⭐⭐⭐⭐⭐ — 12 个未见数据集、187 个任务、多种交互方式、详尽的消融和对比，还包括上界分析（nnUNet）
写作质量: ⭐⭐⭐⭐⭐ — 问题定义清晰，图示直观，实验设计严谨
价值: ⭐⭐⭐⭐⭐ — 直接解决生物医学研究者的痛点，工具开源可部署