Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision¶
会议: CVPR 2026 arXiv: 2603.13660 代码: 有(论文中提到 Code is available) 领域: 医学图像 关键词: 自监督学习, 3D医学图像, mask引导预训练, in-context分割, 基础模型
一句话总结¶
提出 MASS(MAsk-guided Self-Supervised learning),利用 SAM2 自动生成的类别无关 mask 作为伪标注,以 in-context 分割为 pretext task 进行自监督预训练,无需任何人工标注即可学到语义丰富、泛化性强的 3D 医学图像表征,在 few-shot 分割和冻结编码器分类上均取得优异表现。
研究背景与动机¶
- 基础模型缺位:GPT、CLIP、DINO 等在自然图像/语言领域已通过大规模无标注数据学到通用表征,但 3D 医学图像领域尚无对应的基础模型范式。
- 现有自监督方法不足:对比学习(SimCLR、MoCo)侧重全局特征,MAE 等重建方法侧重低层纹理,均无法捕获医学影像所需的解剖语义和空间精确性。
- 监督预训练的局限:SuPreM、STU-Net 等依赖大量专家标注,受限于预定义类别体系(如 25 个器官 + 7 种肿瘤),无法扩展到临床实践中数千种解剖变体和病理。
- 医学图像的独特挑战:与自然图像不同,医学扫描中几乎所有体素都有临床意义(骨密度→骨折、软组织纹理→肿瘤、血管模式→缺血),且空间精度至关重要。
- 标注成本障碍:3D 医学图像的像素级标注需要专业知识且极其昂贵,限制了以分割为 pretext task 的预训练方法的扩展性。
- 核心洞察:语义分割是最符合临床推理方式的 pretext task(临床医生通过识别结构"是什么"和"在哪里"进行推理),而自动生成的类别无关 mask 虽无语义标签且含噪声,但足以捕获解剖和病理上有意义的区域。
方法详解¶
整体框架¶
MASS 包含两个阶段:
阶段一:无标注 Mask 生成
- 使用 SAM2(在自然图像上训练,无医学知识)对无标注 3D 体积进行自动分割
- 具体流程:创建 3 通道输入(CT 用不同窗宽窗位、MRI/PET 用分位数归一化),沿最优成像轴均匀采样 2D 切片,应用 SAM2 的自动 mask 生成(密集点提示),通过 SAM2 的视频预测能力将 mask 传播到整个体积
- 每个体积可生成数百到数千个 3D mask,覆盖器官、血管、肿瘤、病灶等多种结构
阶段二:Mask 引导的自监督学习
- 采用 in-context segmentation(ICS)框架,沿用 Iris 架构
- 模型由三部分组成:图像编码器 \(E_\theta\)、任务编码模块 \(T_\phi\)、mask 解码器 \(D_\psi\)
- 每次迭代:采样一张无标注 3D 图像 \(x\) 及其自动生成的 mask \(m\),创建两个增强视图——参考视图 \((x_s, y_s)\) 和查询视图 \((x_q, y_q)\)
- 参考视图提供"在哪里"的位置信息,外观变换迫使模型学习跨不同视觉表现的语义一致性("是什么")
关键设计¶
- 任务嵌入机制:编码参考图像 \(F_s = E_\theta(x_s)\),提取任务嵌入 \(\mathcal{T} = T_\phi(F_s, y_s)\),捕获"要分割什么解剖结构"的信息,引导解码器预测查询 mask \(\hat{y}_q = D_\psi(E_\theta(x_q), \mathcal{T})\)
- 隐式语义学习:无需语义标签,通过不变性机制学习语义——外观增强(亮度、对比度、gamma、高斯噪声)破坏强度匹配、纹理模式等捷径,空间增强(旋转、缩放、平移)消除位置和方向线索。模型只能学到跨所有变换不变的东西——解剖结构的本质语义身份
- 开放集 mask 多样性:训练时使用数千个类别无关 mask,覆盖从器官级到亚解剖区域到病理的多种粒度,迫使模型学习广泛的医学概念和可组合的视觉原语(纹理模式、边界特征、空间配置、强度分布)
- 多模态兼容:mask 生成流程适用于 CT、MRI、PET 等多种模态,通过不同的预处理策略(CT 用窗宽窗位、MRI/PET 用分位数归一化)统一输入
损失函数/训练策略¶
- 损失函数:\(\mathcal{L}_{Seg} = \mathcal{L}_{Dice}(\hat{y}_q, y_q) + \mathcal{L}_{BCE}(\hat{y}_q, y_q)\),Dice Loss + 二值交叉熵联合优化
- 数据增强:空间变换(旋转、缩放、平移)同时作用于图像和 mask 以保持对应关系;外观变换(亮度、对比度、gamma、高斯噪声)仅作用于图像
- 默认骨干:3D ResUNet
- 预训练规模:小规模(单数据集 20-200 扫描)到大规模(5K 多模态 CT/MRI/PET 体积,12 个数据集)
- 下游使用三种模式:(1) 免训练 in-context 分割(无需参数更新);(2) 任务特定微调;(3) 冻结编码器做分类
实验关键数据¶
主实验¶
表1:单数据集 few-shot 分割(Dice %)
| 方法 | BCV 1-shot | BCV 10-shot | AMOS MR 1-shot | AMOS MR 10-shot | SS H&N 1-shot | KiTS 30-shot |
|---|---|---|---|---|---|---|
| Scratch | 27.3 | 75.2 | 32.8 | 75.9 | 51.8 | 35.7 |
| SimCLR | 44.9 | 78.4 | 35.9 | 78.0 | 53.6 | 41.5 |
| MASS-IC | 65.5 | 73.6 | 62.1 | 71.6 | 59.3 | 3.8 |
| MASS-FT | 68.8 | 83.7 | 65.9 | 84.7 | 66.9 | 64.3 |
| 全监督 | 83.6 | — | 85.5 | — | 78.2 | 81.7 |
表2:大规模多模态预训练分割(Dice %,5K 体积预训练)
| 方法 | BCV 1-shot | AMOS MR 1-shot | KiTS 30-shot | Pelvic 1-shot |
|---|---|---|---|---|
| SuPreM (监督) | 63.9 | 55.1 | 64.1 | 85.4 |
| Iris-FT (监督) | 83.4 | 83.6 | 78.3 | 86.9 |
| AnatoMix | 53.1 | 35.9 | 40.6 | 82.2 |
| Merlin | 50.1 | 37.9 | 51.1 | 79.3 |
| MASS-FT | 70.2 | 74.3 | 68.5 | 92.8 |
表3:分类性能(AUC %,冻结编码器)
| 方法 | RSNA ICH 5% | RSNA ICH 100% | Liver Trauma 30% | Kidney Trauma 30% |
|---|---|---|---|---|
| Scratch (全训练) | 72.8 | 89.5 | 74.4 | 75.0 |
| SuPreM | 73.5 | 78.3 | 68.3 | 54.9 |
| Merlin | 57.3 | 65.5 | 60.1 | 58.0 |
| MASS | 75.4 | 81.5 | 86.7 | 82.9 |
消融实验¶
Mask 质量分析:自动 mask 与 GT 的平均 Dice 仅 15.2%(BCV)和 7.1%(SS H&N),仅 14%/13% 的 mask Dice > 40,但 MASS 仍取得 65.5% 和 59.3% 的 1-shot 性能——说明弱监督即足够。
Mask 生成方法对比:
| Mask 来源 | BCV 1-shot | SS H&N 1-shot |
|---|---|---|
| TotalSegmentator | 80.7 | 13.5(类别不覆盖) |
| SAM2 | 65.5 | 59.3 |
| SLIC 超像素 | 54.3 | 43.8 |
数据多样性 > 数量:从单器官腹部 CT(BCV,42.7%)扩展到全身 CT + 多模态达到 73.9%。解剖和模态多样性驱动性能提升,而同域数据堆叠迅速饱和。
架构泛化:ResUNet 和 I3DResNet152 在相同设置下性能相当(分割 73.87 vs 72.56,分类 75.42 vs 75.98),验证方法与具体编码器设计无关。
关键发现¶
- 解剖 vs 病理:MASS-IC 在解剖结构(器官)上有强 few-shot 能力,但在高变异性肿瘤上 in-context 性能有限(KiTS 仅 2.7%);微调后 MASS-FT 显著超越基线(64.3% vs 42.2%)
- 20-40% 标注即匹配全监督:在解剖结构数据集上,MASS-FT 仅用 10-shot(25-40% 训练数据)即可达到全监督性能
- 冻结编码器超越全训练:在 RSNA ICH 5% 数据上,MASS 冻结编码器(75.4%)超越从头全训练(72.8%);Trauma 30% 数据上提升更显著(肝 86.7 vs 74.4、肾 82.9 vs 75.0)
- OOD 泛化:在完全未见的数据集上(BraTS、ACDC、Pelvic),MASS 展现竞争力甚至超越监督预训练(Pelvic 92.8 vs Iris 86.9)
亮点与洞察¶
- 范式创新:首次将"类别无关 mask 引导的 in-context 分割"确立为 3D 医学图像自监督预训练的 pretext task,绕开了标注瓶颈
- 从弱到强:自动 mask 与 GT 平均重叠仅 7-15%,但通过在数千个"大致正确"的分割任务上训练,模型学到了超越单个 mask 边界的语义概念
- 数据效率极高:仅用 5K 体积(远少于 OpenMind 的 114K)就超越所有自监督基线,且 BCV 单数据集(23 scans)预训练在 ICH 分类上已接近 SuPreM
- 语义从不变性中涌现:不需要语义标签,增强引起的外观/空间变化迫使模型学到唯一不变的因素——解剖结构的本质语义身份
- 开放集优势:不受预定义类别约束,SAM2 mask 天然覆盖多粒度多结构,在 taxonomy 不匹配的场景下(如 SS H&N)远优于 TotalSegmentator
局限性¶
- 病理结构 in-context 能力弱:高变异性肿瘤(如 KiTS)的 zero-shot in-context 分割效果差(2.7%),必须通过微调才能有效处理
- 未探索弱 mask + 专家标注的协同:刻意排除了有标注数据,未研究自动 mask 与少量专家标注结合的潜力
- 依赖 SAM2 的边界检测能力:mask 质量受限于 SAM2 在医学图像上的域迁移性能,对边界模糊的结构可能效果不佳
- 缺少视觉-语言对齐:未与放射学报告等文本模态对齐,限制了在报告生成等任务上的应用
- 与监督预训练的差距:在评估目标与监督标注一致时(如 BCV),监督方法(Iris 83.2)仍领先 MASS(70.2)约 10-15 点
相关工作¶
- 自监督学习:Model Genesis(图像恢复)、MAE/SimMIM(mask 重建)、DINO(自蒸馏)、SimCLR/MoCo(对比学习)——侧重通用视觉特征,缺乏语义分割的空间精度
- 监督预训练:SuPreM(25M 标注体素)、STU-Net(TotalSegmentator 全身 CT)——受限于标注规模和预定义类别
- 合成数据:AnatoMix(从 TotalSegmentator mask 生成合成 CT)——分布差异限制迁移性能
- 通用分割与交互模型:UniverSeg、Iris(in-context 学习但需标注)、SAM 医学适配版——仍需标注或推理时人工交互
- MASS 的差异:唯一的无标注 + 开放集 mask + 语义自涌现 + 多模态兼容的自监督方案
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次用类别无关自动 mask 做医学图像自监督预训练,pretext task 设计巧妙且直觉清晰
- 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 4 模态 12+ 数据集、分割+分类两大任务线、从 20 scans 到 5K volumes 的规模实验、多维消融
- 写作质量: ⭐⭐⭐⭐⭐ — 动机-方法-实验逻辑链完整,"不变性→语义涌现"的解释优雅且有说服力
- 价值: ⭐⭐⭐⭐⭐ — 为 3D 医学图像基础模型提供了无标注可扩展的新路径,实用性极强