I-MedSAM: Implicit Medical Image Segmentation with Segment Anything¶

会议: ECCV 2024
arXiv: 2311.17081
代码: 有
领域: 医学图像分割
关键词: 医学图像分割, 隐式神经表示, Segment Anything, 频率适配器, 不确定性引导采样

一句话总结¶

提出 I-MedSAM，将 SAM 的强泛化能力与隐式神经表示（INR）的连续空间预测优势结合，通过频率适配器增强边界高频信息、不确定性引导采样精细化分割，仅用 1.6M 可训练参数即超越现有离散和隐式方法。

研究背景与动机¶

现有方法的局限¶

医学图像分割是辅助疾病诊断的关键环节。当前方法面临以下问题：

离散表示的固有缺陷：传统方法（如 nnUNet、PraNet）和近期 SAM 适配方法（如 MedSAM）均基于像素级离散预测，在跨分辨率场景下空间灵活性差，且在缩放到更高分辨率时会产生离散化伪影。此外，离散表示在提取精细边界细节时存在模糊性，而医学图像中边界的精确刻画（如不同组织/解剖结构的过渡区域）至关重要。

隐式方法的不足：虽然隐式神经表示（INR）能将离散表示转换为连续空间，适应任意输出分辨率，但现有隐式方法存在三个问题： - 预训练编码器表示能力有限，跨域迁移能力差 - 忽略了频域中与边界强相关的高频信息 - 在训练 INR 时采用随机采样策略，低估了采样策略的重要性

参数效率问题：全量微调基础模型参数量巨大（如 nnUNet 需 126.6M），需要更高效的微调策略。

核心思路¶

I-MedSAM 的设计动机清晰：利用 SAM 的强跨域泛化能力弥补隐式方法编码器不足，同时通过 INR 获得连续表示的灵活性。在此基础上，针对边界质量和采样效率分别设计了频率适配器和不确定性引导采样。

方法详解¶

整体框架¶

I-MedSAM 包含两大部分：

编码器部分：基于 SAM 的 ViT-B 图像编码器，冻结预训练参数，通过 LoRA 适配器（空间域）和频率适配器（频域）提取多尺度特征；同时使用 SAM 的 Prompt 编码器处理粗边界框提示。

解码器部分：两阶段隐式分割解码器，包含浅层"粗糙" INR ($Dec_c$) 和深层"精细" INR ($Dec_f$)，通过不确定性引导采样连接两阶段。

关键设计¶

1. 频率适配器 (Frequency Adapter, FA)¶

功能：从频域提取高频信息增强 SAM 特征，改善分割边界质量。

核心思路：通过快速傅里叶变换（FFT）将特征转换到频域，提取振幅谱（amplitude spectrum）：

\[\mathcal{F}_{u,v} = \sum_{h=1}^{H}\sum_{w=1}^{W} f_{h,w} \cdot e^{-j2\pi(\frac{h}{H}u + \frac{w}{W}v)}\]

每个 FA 由线性下投影层 → GELU → 线性上投影层组成，共 $n$ 个 FA 对应 ViT 的 $n$ 个 Block。实验表明振幅谱比相位谱具有更好的表示能力。

设计动机：边界信息与频域高频特征强相关。SAM 原始编码器主要在空间域工作，通过频率适配器补充频域信息，可以更精确地捕捉组织边界的细微变化。

2. 粗到细隐式神经表示 (Coarse-to-Fine INR)¶

功能：将编码器特征和坐标映射为连续分割输出。

核心思路：受 NeRF 启发，不使用单阶段 INR，而是两阶段解码：

首先，对坐标进行高频位置编码避免学习偏差：

\[\gamma(p) = (\sin(2^0\pi p), \cos(2^0\pi p), \cdots, \sin(2^{L-1}\pi p), \cos(2^{L-1}\pi p))\]

将编码后的坐标、图像特征和提示特征拼接：

\[Z^p = Concat(\gamma(p), Interp(Enc_I(X)), Enc_I(P))\]

然后通过两阶段解码： - $Dec_c$（浅层，MLP维度 [1024, 512]）：生成粗分割图 $\hat{o}_i^c$ 和粗特征 $z_i^c$ - $Dec_f$（深层，MLP维度 [512, 256, 256, 128]）：对采样点进行精细化

设计动机：两阶段设计让模型先建立全局理解，再集中计算资源精细化困难区域，比单阶段 INR 更高效。

3. 不确定性引导采样 (Uncertainty Guided Sampling, UGS)¶

功能：自适应选择需要精细化的像素点，送入精细 INR 解码。

核心思路：使用 MC-Dropout 进行 $T$ 次随机前向传播，计算每个像素的预测不确定性（方差）：

\[\mu_i = \frac{1}{T}\sum_{t=1}^{T} p_t(o_i^c | z_i^p)$$ $$u_i = \frac{1}{T}\sum_{t=1}^{T} (p_t(o_i^c | z_i^p) - \mu_i)^2\]

选择方差最高的 Top-K%（默认 12.5%）特征点送入 $Dec_f$ 精细化，最终合并粗细预测作为输出。

设计动机：不同像素的预测难度不同，边界附近和困难区域的不确定性更高。通过自适应选择高不确定性点进行精细化，比随机采样或全量处理都更高效准确。

损失函数 / 训练策略¶

损失函数：采用交叉熵损失和 Dice 损失的加权组合：

\[L_{seg}(o_i, \hat{o}_i) = 0.5 \cdot L_{ce}(o_i, \hat{o}_i) + 0.5 \cdot L_{dc}(o_i, \hat{o}_i)\]

训练策略： - 冻结 SAM 图像编码器，仅训练适配器、Prompt 编码器和 INR - 粗细两阶段同时优化，训练过程中逐步降低粗分割监督权重、提升精细分割权重 - 使用 AdamW 优化器，适配器学习率 $5 \times 10^{-5}$，解码器学习率 $1 \times 10^{-3}$ - LoRA rank 设为 4，dropout 概率 0.5，训练 1000 epochs

实验关键数据¶

主实验¶

二分类息肉分割 (Kvasir-Sessile)

方法类型	方法	Dice (%) ↑	可训练参数 (M) ↓
离散	U-Net	63.89±1.30	7.9
离散	PraNet	82.56±1.08	30.5
离散	nnUNet	82.97±0.89	126.6
离散	MedSAM	82.88±0.55	4.1
隐式	OSSNet	76.11±1.14	5.2
隐式	SwIPE	85.05±0.82	2.7
隐式	I-MedSAM	91.49±0.52	1.6

多类器官分割 (BCV, 13类)

方法类型	方法	Dice (%) ↑	可训练参数 (M) ↓
离散	nnUNet	85.15±0.67	126.6
离散	MedSAM	85.85±0.81	52.7
隐式	SwIPE	81.21±0.94	4.4
隐式	I-MedSAM	89.91±0.68	3.5

鲁棒性实验¶

跨分辨率 (Kvasir-Sessile)

方法	384→128 Dice (%)	384→896 Dice (%)
nnUNet	73.97	83.56
MedSAM	82.39	83.19
SwIPE	81.26	84.33
I-MedSAM	91.45	91.33

跨域泛化

任务	方法	Dice (%)
Sessile→CVC	nnUNet	84.91
Sessile→CVC	I-MedSAM	88.83
BCV→AMOS	SwIPE	82.81
BCV→AMOS	I-MedSAM	86.28

消融实验¶

组件消融 (Kvasir-Sessile)

LoRA	FA	INR	Sessile Dice (%)	跨域 Dice (%)	384→128	384→896
✓			83.61	82.57	72.73	76.46
✓	✓		88.74	82.61	75.69	78.59
✓		✓	88.83	83.40	88.16	88.43
✓	✓	✓	91.49	88.83	91.45	91.33

频率适配器消融

设置	w/o FA	相位谱	振幅谱
Dice (%)	88.83	90.60	91.49
HD距离	15.44	12.67	11.59

UGS 采样比例消融

设置	w/o UGS	Top-50%	Top-25%	Top-12.5%	Top-6.25%	Top-3.125%
Dice (%)	87.77	90.27	89.59	91.49	91.01	90.48

关键发现¶

FA 和 INR 各自独立带来提升，组合使用产生 $1+1>2$ 的协同效应
INR 解码器在跨域和跨分辨率任务中优势更为明显（从 72.73/76.46 提升至 88.16/88.43）
振幅谱比相位谱更有效，且显著改善边界质量（HD 从 15.44 降至 11.59）
UGS 的 12.5% 采样比例最优，过多或过少采样都不利
I-MedSAM 在少标注（10%训练数据）场景下仍显著优于所有基线

亮点与洞察¶

连续 vs 离散的完美结合：不是简单替换解码器，而是通过频域-空间域双路径编码 + 两阶段INR解码，系统性地设计了从离散到连续的转换
不确定性驱动的计算分配：UGS 策略让模型把更多计算资源集中在"真正困难的像素"上，体现了自适应计算的思想
极致的参数效率：1.6M 可训练参数超越 126.6M 的 nnUNet，效率比达到 79:1

局限与展望¶

当前仅验证 2D 医学图像，3D 体积分割（如 CT/MRI 体积数据）的扩展是自然方向
依赖于粗边界框提示作为输入，自动化程度有限
MC-Dropout 的 $T$ 次前向传播会增加推理时间，可以探索更高效的不确定性估计方法
频率适配器的设计较为简单（仅线性层+GELU），可以引入更复杂的频域处理模块

评分¶

新颖性: ⭐⭐⭐⭐ — SAM + INR + 频率适配器 + UGS 的组合是全新的，虽然每个组件单独看并非完全新颖
实验充分度: ⭐⭐⭐⭐⭐ — 涵盖多任务、跨分辨率、跨域、边界质量、少标注等多维度评估，消融彻底
写作质量: ⭐⭐⭐⭐ — 动机清晰，方法描述详尽，图表设计良好
价值: ⭐⭐⭐⭐ — 为医学图像分割提供了参数高效且鲁棒的新方案，1.6M 参数的实用性很强