跳转至

I-MedSAM: Implicit Medical Image Segmentation with Segment Anything

会议: ECCV 2024
arXiv: 2311.17081
代码:
领域: 医学图像分割
关键词: 医学图像分割, 隐式神经表示, Segment Anything, 频率适配器, 不确定性引导采样

一句话总结

提出 I-MedSAM,将 SAM 的强泛化能力与隐式神经表示(INR)的连续空间预测优势结合,通过频率适配器增强边界高频信息、不确定性引导采样精细化分割,仅用 1.6M 可训练参数即超越现有离散和隐式方法。

研究背景与动机

现有方法的局限

医学图像分割是辅助疾病诊断的关键环节。当前方法面临以下问题:

离散表示的固有缺陷:传统方法(如 nnUNet、PraNet)和近期 SAM 适配方法(如 MedSAM)均基于像素级离散预测,在跨分辨率场景下空间灵活性差,且在缩放到更高分辨率时会产生离散化伪影。此外,离散表示在提取精细边界细节时存在模糊性,而医学图像中边界的精确刻画(如不同组织/解剖结构的过渡区域)至关重要。

隐式方法的不足:虽然隐式神经表示(INR)能将离散表示转换为连续空间,适应任意输出分辨率,但现有隐式方法存在三个问题: - 预训练编码器表示能力有限,跨域迁移能力差 - 忽略了频域中与边界强相关的高频信息 - 在训练 INR 时采用随机采样策略,低估了采样策略的重要性

参数效率问题:全量微调基础模型参数量巨大(如 nnUNet 需 126.6M),需要更高效的微调策略。

核心思路

I-MedSAM 的设计动机清晰:利用 SAM 的强跨域泛化能力弥补隐式方法编码器不足,同时通过 INR 获得连续表示的灵活性。在此基础上,针对边界质量和采样效率分别设计了频率适配器和不确定性引导采样。

方法详解

整体框架

I-MedSAM 包含两大部分:

编码器部分:基于 SAM 的 ViT-B 图像编码器,冻结预训练参数,通过 LoRA 适配器(空间域)和频率适配器(频域)提取多尺度特征;同时使用 SAM 的 Prompt 编码器处理粗边界框提示。

解码器部分:两阶段隐式分割解码器,包含浅层"粗糙" INR (\(Dec_c\)) 和深层"精细" INR (\(Dec_f\)),通过不确定性引导采样连接两阶段。

关键设计

1. 频率适配器 (Frequency Adapter, FA)

功能:从频域提取高频信息增强 SAM 特征,改善分割边界质量。

核心思路:通过快速傅里叶变换(FFT)将特征转换到频域,提取振幅谱(amplitude spectrum):

\[\mathcal{F}_{u,v} = \sum_{h=1}^{H}\sum_{w=1}^{W} f_{h,w} \cdot e^{-j2\pi(\frac{h}{H}u + \frac{w}{W}v)}\]

每个 FA 由线性下投影层 → GELU → 线性上投影层组成,共 \(n\) 个 FA 对应 ViT 的 \(n\) 个 Block。实验表明振幅谱比相位谱具有更好的表示能力。

设计动机:边界信息与频域高频特征强相关。SAM 原始编码器主要在空间域工作,通过频率适配器补充频域信息,可以更精确地捕捉组织边界的细微变化。

2. 粗到细隐式神经表示 (Coarse-to-Fine INR)

功能:将编码器特征和坐标映射为连续分割输出。

核心思路:受 NeRF 启发,不使用单阶段 INR,而是两阶段解码:

首先,对坐标进行高频位置编码避免学习偏差:

\[\gamma(p) = (\sin(2^0\pi p), \cos(2^0\pi p), \cdots, \sin(2^{L-1}\pi p), \cos(2^{L-1}\pi p))\]

将编码后的坐标、图像特征和提示特征拼接:

\[Z^p = Concat(\gamma(p), Interp(Enc_I(X)), Enc_I(P))\]

然后通过两阶段解码: - \(Dec_c\)(浅层,MLP维度 [1024, 512]):生成粗分割图 \(\hat{o}_i^c\) 和粗特征 \(z_i^c\) - \(Dec_f\)(深层,MLP维度 [512, 256, 256, 128]):对采样点进行精细化

设计动机:两阶段设计让模型先建立全局理解,再集中计算资源精细化困难区域,比单阶段 INR 更高效。

3. 不确定性引导采样 (Uncertainty Guided Sampling, UGS)

功能:自适应选择需要精细化的像素点,送入精细 INR 解码。

核心思路:使用 MC-Dropout 进行 \(T\) 次随机前向传播,计算每个像素的预测不确定性(方差):

\[\mu_i = \frac{1}{T}\sum_{t=1}^{T} p_t(o_i^c | z_i^p)$$ $$u_i = \frac{1}{T}\sum_{t=1}^{T} (p_t(o_i^c | z_i^p) - \mu_i)^2\]

选择方差最高的 Top-K%(默认 12.5%)特征点送入 \(Dec_f\) 精细化,最终合并粗细预测作为输出。

设计动机:不同像素的预测难度不同,边界附近和困难区域的不确定性更高。通过自适应选择高不确定性点进行精细化,比随机采样或全量处理都更高效准确。

损失函数 / 训练策略

损失函数:采用交叉熵损失和 Dice 损失的加权组合:

\[L_{seg}(o_i, \hat{o}_i) = 0.5 \cdot L_{ce}(o_i, \hat{o}_i) + 0.5 \cdot L_{dc}(o_i, \hat{o}_i)\]

训练策略: - 冻结 SAM 图像编码器,仅训练适配器、Prompt 编码器和 INR - 粗细两阶段同时优化,训练过程中逐步降低粗分割监督权重、提升精细分割权重 - 使用 AdamW 优化器,适配器学习率 \(5 \times 10^{-5}\),解码器学习率 \(1 \times 10^{-3}\) - LoRA rank 设为 4,dropout 概率 0.5,训练 1000 epochs

实验关键数据

主实验

二分类息肉分割 (Kvasir-Sessile)

方法类型 方法 Dice (%) ↑ 可训练参数 (M) ↓
离散 U-Net 63.89±1.30 7.9
离散 PraNet 82.56±1.08 30.5
离散 nnUNet 82.97±0.89 126.6
离散 MedSAM 82.88±0.55 4.1
隐式 OSSNet 76.11±1.14 5.2
隐式 SwIPE 85.05±0.82 2.7
隐式 I-MedSAM 91.49±0.52 1.6

多类器官分割 (BCV, 13类)

方法类型 方法 Dice (%) ↑ 可训练参数 (M) ↓
离散 nnUNet 85.15±0.67 126.6
离散 MedSAM 85.85±0.81 52.7
隐式 SwIPE 81.21±0.94 4.4
隐式 I-MedSAM 89.91±0.68 3.5

鲁棒性实验

跨分辨率 (Kvasir-Sessile)

方法 384→128 Dice (%) 384→896 Dice (%)
nnUNet 73.97 83.56
MedSAM 82.39 83.19
SwIPE 81.26 84.33
I-MedSAM 91.45 91.33

跨域泛化

任务 方法 Dice (%)
Sessile→CVC nnUNet 84.91
Sessile→CVC I-MedSAM 88.83
BCV→AMOS SwIPE 82.81
BCV→AMOS I-MedSAM 86.28

消融实验

组件消融 (Kvasir-Sessile)

LoRA FA INR Sessile Dice (%) 跨域 Dice (%) 384→128 384→896
83.61 82.57 72.73 76.46
88.74 82.61 75.69 78.59
88.83 83.40 88.16 88.43
91.49 88.83 91.45 91.33

频率适配器消融

设置 w/o FA 相位谱 振幅谱
Dice (%) 88.83 90.60 91.49
HD距离 15.44 12.67 11.59

UGS 采样比例消融

设置 w/o UGS Top-50% Top-25% Top-12.5% Top-6.25% Top-3.125%
Dice (%) 87.77 90.27 89.59 91.49 91.01 90.48

关键发现

  1. FA 和 INR 各自独立带来提升,组合使用产生 \(1+1>2\) 的协同效应
  2. INR 解码器在跨域和跨分辨率任务中优势更为明显(从 72.73/76.46 提升至 88.16/88.43)
  3. 振幅谱比相位谱更有效,且显著改善边界质量(HD 从 15.44 降至 11.59)
  4. UGS 的 12.5% 采样比例最优,过多或过少采样都不利
  5. I-MedSAM 在少标注(10%训练数据)场景下仍显著优于所有基线

亮点与洞察

  1. 连续 vs 离散的完美结合:不是简单替换解码器,而是通过频域-空间域双路径编码 + 两阶段INR解码,系统性地设计了从离散到连续的转换
  2. 不确定性驱动的计算分配:UGS 策略让模型把更多计算资源集中在"真正困难的像素"上,体现了自适应计算的思想
  3. 极致的参数效率:1.6M 可训练参数超越 126.6M 的 nnUNet,效率比达到 79:1

局限与展望

  1. 当前仅验证 2D 医学图像,3D 体积分割(如 CT/MRI 体积数据)的扩展是自然方向
  2. 依赖于粗边界框提示作为输入,自动化程度有限
  3. MC-Dropout 的 \(T\) 次前向传播会增加推理时间,可以探索更高效的不确定性估计方法
  4. 频率适配器的设计较为简单(仅线性层+GELU),可以引入更复杂的频域处理模块

相关工作与启发

  • 隐式表示用于分割:OSSNet、IOSNet、SwIPE 等工作建立了 INR 用于分割的范式,I-MedSAM 在此基础上引入了更强的编码器和自适应采样
  • SAM 适配:MedSAM、SAMed 等工作聚焦于 SAM 在医学图像的适配,I-MedSAM 创新性地将 SAM 与 INR 结合
  • 启发:频域信息对边界质量的提升启示我们,在其他密集预测任务中也可以考虑频域特征增强

评分

  • 新颖性: ⭐⭐⭐⭐ — SAM + INR + 频率适配器 + UGS 的组合是全新的,虽然每个组件单独看并非完全新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ — 涵盖多任务、跨分辨率、跨域、边界质量、少标注等多维度评估,消融彻底
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法描述详尽,图表设计良好
  • 价值: ⭐⭐⭐⭐ — 为医学图像分割提供了参数高效且鲁棒的新方案,1.6M 参数的实用性很强

相关论文