An OpenMind for 3D Medical Vision Self-supervised Learning¶
会议: ICCV 2025
arXiv: 2412.17041
代码: https://github.com/MIC-DKFZ/nnssl (有)
领域: 医学图像
关键词: 自监督学习, 3D医学图像, 预训练数据集, 脑MRI, 基准测试
一句话总结¶
发布了最大的公开3D医学影像预训练数据集OpenMind(114k脑MRI体积),并在该数据集上系统性benchmark了现有3D SSL方法在最先进CNN(ResEnc-L)和Transformer(Primus-M)架构上的表现,明确了3D医学图像SSL的当前SOTA。
背景与动机¶
3D医学影像SSL领域缺乏一致性和标准化,现有方法无法公平比较,原因有三: 1. 缺乏大规模公开预训练数据集:大型数据集(如UK-BioBank >100k, ABCD >40k)受限于数据使用协议(DUA),要求内部审查、强制署名等,阻碍了可复现研究。多数SSL方法在小规模或私有数据上开发。 2. 架构选择不统一:不同方法使用CNN、ViT、Swin Transformer、混合架构等,无法直接比较方法本身的优劣。 3. 下游评估不一致:评估数据集选择不同且数量少,结果可靠性差。
核心问题¶
如何建立一个标准化的3D医学图像SSL基准:统一预训练数据集、架构选择和评估协议,从而确定SSL预训练的实际价值和当前SOTA?
方法详解¶
整体框架¶
本文并非提出新的SSL方法,而是做了三件关键贡献:
a) OpenMind数据集 - 来源:OpenNeuro平台800个公开研究,遵循BIDS格式 - 规模:114k 3D脑MRI体积(34,191名受试者),23种MRI模态 - 包含71k直接3D MRI扫描 + 15k 4D DWI预处理为43k 3D图像(MD图、FA图、T2加权图) - CC-BY-4.0许可证,无访问限制 - 配套提供:匿名化掩码、解剖掩码、统一元数据、图像质量评分(IQS, 1-5分) - 发布在HuggingFace上
b) SSL Benchmark - 两种SOTA架构:ResEnc-L(CNN)和 Primus-M(Transformer) - 7种SSL方法:VoCo, SwinUNETR预训练, SimCLR, VolumeFusion (VF), ModelsGenesis (MG), MAE, S3D/SimMIM - 15个下游数据集:12个分割 + 3个分类 - 分为4个开发集(用于超参数优化)+ 8个分割测试集 + 3个分类测试集
c) 开源 - 预训练和微调框架代码 - 所有预训练模型checkpoint - 集成到nnU-Net框架
关键设计¶
预训练配置: - 所有方法在OpenMind上统一预训练1000 epochs × 250 steps/epoch - 使用4×40GB A100 DDP训练 - 统一spacing:1mm³各向同性,z-score标准化
五种微调策略(核心创新之一): 1. Default:多项式lr衰减,初始lr从1e-2降至1e-3(迁移学习设置) 2. Frozen:冻结encoder,仅训练decoder 3. Warm-Up:先线性增加lr,再转入default 4. Valley:先用递减lr训练decoder → 线性warm-up全网络 → default 5. Sawtooth:两阶段warm-up:先冻结encoder用递增lr训练decoder → 全网络递增lr warm-up → default
CNN最优:Sawtooth;Transformer最优:Warm-Up
数据过滤实验(data-centric): - 按IQS过滤低质量图像(三个阈值) - 按模态过滤(仅保留T1w, T2w, FLAIR) - 匿名化区域是否计入重建损失
损失函数 / 训练策略¶
各SSL方法使用各自标准损失(本文未提出新方法): - MAE/S3D/SimMIM: L2重建损失(仅在masked区域) - SimCLR: NT-Xent对比损失 - VoCo: 余弦相似度 + 正则化 - VF: 交叉熵分割损失(伪分割任务) - MG: 去噪+掩码重建 - SwinUNETR: 修复 + 旋转预测 + 对比学习(等权重聚合)
微调150或1000 epochs,batch size=2,用nnU-Net框架的polynomial lr。
实验关键数据¶
分割结果(DSC %,150 epochs微调,12个数据集平均)¶
| 方法 | 架构 | All Mean | ID Mean | OOD Mean | 对比Scratch 150ep |
|---|---|---|---|---|---|
| Scratch 1k | ResEnc-L | 70.47 | 64.15 | 89.43 | - |
| Scratch | ResEnc-L | 68.44 | 62.23 | 87.08 | - |
| MAE | ResEnc-L | 70.91 | 65.11 | 88.30 | +2.47 |
| S3D | ResEnc-L | 70.36 | 64.46 | 88.06 | +1.92 |
| MG | ResEnc-L | 70.30 | 64.37 | 88.09 | +1.86 |
| SimCLR | ResEnc-L | 69.44 | 63.40 | 87.56 | +1.00 |
| VoCo | ResEnc-L | 68.50 | 62.14 | 87.58 | +0.06 |
| Scratch 1k | Primus-M | 67.01 | 60.05 | 87.90 | - |
| Scratch | Primus-M | 63.62 | 57.29 | 82.61 | - |
| MAE | Primus-M | 70.42 | 64.34 | 88.69 | +6.80 |
| SimMIM | Primus-M | 69.18 | 62.85 | 88.16 | +5.56 |
| VF | Primus-M | 68.19 | 61.75 | 87.51 | +4.57 |
关键发现: - MAE预训练的ResEnc-L在150ep微调即超过1000ep从头训练的baseline(70.91 vs 70.47) - Transformer(Primus-M)从预训练中获益远大于CNN(+6.80 vs +2.47) - MAE预训练的Primus-M几乎追平ResEnc-L(70.42 vs 70.91),在部分数据集(ATL, COS, ACD)上甚至超越
分类结果¶
- 对比学习方法(VoCo, SwinUNETR, SimCLR)在分类上最好
- MAE在分类上最差
- 说明全局特征(对比学习)适合分类,局部特征(重建)适合分割
- 没有一种SSL方法同时在分割和分类上都表现最佳
消融实验要点¶
- 微调策略:Sawtooth(CNN)和Warm-Up(Transformer)最优;Frozen策略性能大幅下降,说明当前SSL学到的表征泛化性不足
- 数据过滤:去除最低质量图像(保留~57%)可略微提升性能(+0.15 DSC);但减少模态多样性(仅T1w/T2w/FLAIR,保留62%数据)反而降低性能(-0.43 DSC)
- 匿名化感知:在重建损失中排除匿名化区域可提升MAE和S3D的性能(MAE All Mean: 70.91→71.29)
- 长期微调:1000ep微调在OOD数据集上有益,但在预训练已有效的数据集上可能退化(过拟合)
亮点¶
- 数据集贡献巨大:114k 3D脑MRI,最大公开3D医学影像数据集,CC-BY许可,极大降低SSL研究门槛
- 首次证明预训练Transformer在3D医学分割中可媲美CNN:MAE预训练的Primus-M在部分数据集超越最强ResEnc-L
- 系统性benchmark:统一数据、架构、评估,7种方法 × 2种架构 × 15个下游任务,结论可靠
- 微调策略的重要性:发现微调策略对预训练效果影响极大,Sawtooth/Warm-Up远优于简单微调
- 完整开源生态:数据集、代码框架、所有checkpoint、集成nnU-Net,极具实用价值
- 数据质量元数据(IQS)首次探索data-centric方法在3D医学SSL中的可行性
局限性 / 可改进方向¶
- 仅限脑MRI:预训练数据全部是头颈部MRI,对CT、胸腹部等场景迁移效果待验证
- 分类实验不够可靠:分类pipeline不如nnU-Net成熟,部分数据集接近随机(ABI~50% balanced accuracy)
- 数据过滤效果有限:简单IQS过滤仅带来微弱提升,data-centric方法潜力未充分挖掘
- 仅训练1000 epochs:受算力限制,更长预训练可能揭示不同趋势
- 没有探索PEFT方法:冻结encoder表现差,但LoRA等参数高效微调可能改善
- 未探索元数据感知的SSL方法:数据集提供了丰富元数据但未在预训练中利用
与相关工作的对比¶
| 方面 | 本文 | 以前工作 |
|---|---|---|
| 预训练数据 | 114k公开3D MRI | 小规模或私有数据(如ABCD需审批) |
| 架构对比 | 统一比较CNN+Transformer | 各用各的架构 |
| 下游评估 | 15个数据集,开发/测试分离 | 少数数据集,结果不稳定 |
| 可复现性 | 全部开源(数据+代码+权重) | 多数不可复现 |
与CT-Rate(50k CT)互补:OpenMind专注MRI,更大规模(114k),许可更宽松(CC-BY vs CC-BY-NC)。
启发与关联¶
- 对Transformer在医学图像中的前景证据:首次大规模证明预训练可弥合Transformer与CNN的性能差距
- 微调策略研究方向:在其他SSL+医学任务中也应重视微调策略选择
- Data-centric SSL:虽然简单过滤效果有限,但数据集足够大可支撑更复杂的data curation方法(如语义去重、课程学习)
- 跨模态预训练:未来可结合CT数据集(如CT-Rate)进行多模态SSL
- PEFT方法的迫切需求:给定冻结encoder效果差+长期微调过拟合,LoRA/Adapter等方法在3D SSL微调中大有可为
评分¶
- 新颖性: ⭐⭐⭐⭐ [非方法创新,但数据集+benchmark的系统性贡献非常有价值,首次建立3D医学SSL标准]
- 实验充分度: ⭐⭐⭐⭐⭐ [7种方法×2架构×15数据集×5微调策略+数据过滤+匿名化消融,极其全面]
- 写作质量: ⭐⭐⭐⭐⭐ [结构清晰,实验设计严谨,findings总结到位]
- 价值: ⭐⭐⭐⭐⭐ [数据集+benchmark+开源框架对社区价值极大,将成为3D医学SSL的标准参考]