跳转至

An OpenMind for 3D Medical Vision Self-supervised Learning

会议: ICCV 2025
arXiv: 2412.17041
代码: https://github.com/MIC-DKFZ/nnssl (有)
领域: 医学图像
关键词: 自监督学习, 3D医学图像, 预训练数据集, 脑MRI, 基准测试

一句话总结

发布了最大的公开3D医学影像预训练数据集OpenMind(114k脑MRI体积),并在该数据集上系统性benchmark了现有3D SSL方法在最先进CNN(ResEnc-L)和Transformer(Primus-M)架构上的表现,明确了3D医学图像SSL的当前SOTA。

背景与动机

3D医学影像SSL领域缺乏一致性和标准化,现有方法无法公平比较,原因有三: 1. 缺乏大规模公开预训练数据集:大型数据集(如UK-BioBank >100k, ABCD >40k)受限于数据使用协议(DUA),要求内部审查、强制署名等,阻碍了可复现研究。多数SSL方法在小规模或私有数据上开发。 2. 架构选择不统一:不同方法使用CNN、ViT、Swin Transformer、混合架构等,无法直接比较方法本身的优劣。 3. 下游评估不一致:评估数据集选择不同且数量少,结果可靠性差。

核心问题

如何建立一个标准化的3D医学图像SSL基准:统一预训练数据集、架构选择和评估协议,从而确定SSL预训练的实际价值和当前SOTA?

方法详解

整体框架

本文并非提出新的SSL方法,而是做了三件关键贡献:

a) OpenMind数据集 - 来源:OpenNeuro平台800个公开研究,遵循BIDS格式 - 规模:114k 3D脑MRI体积(34,191名受试者),23种MRI模态 - 包含71k直接3D MRI扫描 + 15k 4D DWI预处理为43k 3D图像(MD图、FA图、T2加权图) - CC-BY-4.0许可证,无访问限制 - 配套提供:匿名化掩码、解剖掩码、统一元数据、图像质量评分(IQS, 1-5分) - 发布在HuggingFace上

b) SSL Benchmark - 两种SOTA架构:ResEnc-L(CNN)和 Primus-M(Transformer) - 7种SSL方法:VoCo, SwinUNETR预训练, SimCLR, VolumeFusion (VF), ModelsGenesis (MG), MAE, S3D/SimMIM - 15个下游数据集:12个分割 + 3个分类 - 分为4个开发集(用于超参数优化)+ 8个分割测试集 + 3个分类测试集

c) 开源 - 预训练和微调框架代码 - 所有预训练模型checkpoint - 集成到nnU-Net框架

关键设计

预训练配置: - 所有方法在OpenMind上统一预训练1000 epochs × 250 steps/epoch - 使用4×40GB A100 DDP训练 - 统一spacing:1mm³各向同性,z-score标准化

五种微调策略(核心创新之一): 1. Default:多项式lr衰减,初始lr从1e-2降至1e-3(迁移学习设置) 2. Frozen:冻结encoder,仅训练decoder 3. Warm-Up:先线性增加lr,再转入default 4. Valley:先用递减lr训练decoder → 线性warm-up全网络 → default 5. Sawtooth:两阶段warm-up:先冻结encoder用递增lr训练decoder → 全网络递增lr warm-up → default

CNN最优:Sawtooth;Transformer最优:Warm-Up

数据过滤实验(data-centric): - 按IQS过滤低质量图像(三个阈值) - 按模态过滤(仅保留T1w, T2w, FLAIR) - 匿名化区域是否计入重建损失

损失函数 / 训练策略

各SSL方法使用各自标准损失(本文未提出新方法): - MAE/S3D/SimMIM: L2重建损失(仅在masked区域) - SimCLR: NT-Xent对比损失 - VoCo: 余弦相似度 + 正则化 - VF: 交叉熵分割损失(伪分割任务) - MG: 去噪+掩码重建 - SwinUNETR: 修复 + 旋转预测 + 对比学习(等权重聚合)

微调150或1000 epochs,batch size=2,用nnU-Net框架的polynomial lr。

实验关键数据

分割结果(DSC %,150 epochs微调,12个数据集平均)

方法 架构 All Mean ID Mean OOD Mean 对比Scratch 150ep
Scratch 1k ResEnc-L 70.47 64.15 89.43 -
Scratch ResEnc-L 68.44 62.23 87.08 -
MAE ResEnc-L 70.91 65.11 88.30 +2.47
S3D ResEnc-L 70.36 64.46 88.06 +1.92
MG ResEnc-L 70.30 64.37 88.09 +1.86
SimCLR ResEnc-L 69.44 63.40 87.56 +1.00
VoCo ResEnc-L 68.50 62.14 87.58 +0.06
Scratch 1k Primus-M 67.01 60.05 87.90 -
Scratch Primus-M 63.62 57.29 82.61 -
MAE Primus-M 70.42 64.34 88.69 +6.80
SimMIM Primus-M 69.18 62.85 88.16 +5.56
VF Primus-M 68.19 61.75 87.51 +4.57

关键发现: - MAE预训练的ResEnc-L在150ep微调即超过1000ep从头训练的baseline(70.91 vs 70.47) - Transformer(Primus-M)从预训练中获益远大于CNN(+6.80 vs +2.47) - MAE预训练的Primus-M几乎追平ResEnc-L(70.42 vs 70.91),在部分数据集(ATL, COS, ACD)上甚至超越

分类结果

  • 对比学习方法(VoCo, SwinUNETR, SimCLR)在分类上最好
  • MAE在分类上最差
  • 说明全局特征(对比学习)适合分类,局部特征(重建)适合分割
  • 没有一种SSL方法同时在分割和分类上都表现最佳

消融实验要点

  1. 微调策略:Sawtooth(CNN)和Warm-Up(Transformer)最优;Frozen策略性能大幅下降,说明当前SSL学到的表征泛化性不足
  2. 数据过滤:去除最低质量图像(保留~57%)可略微提升性能(+0.15 DSC);但减少模态多样性(仅T1w/T2w/FLAIR,保留62%数据)反而降低性能(-0.43 DSC)
  3. 匿名化感知:在重建损失中排除匿名化区域可提升MAE和S3D的性能(MAE All Mean: 70.91→71.29)
  4. 长期微调:1000ep微调在OOD数据集上有益,但在预训练已有效的数据集上可能退化(过拟合)

亮点

  1. 数据集贡献巨大:114k 3D脑MRI,最大公开3D医学影像数据集,CC-BY许可,极大降低SSL研究门槛
  2. 首次证明预训练Transformer在3D医学分割中可媲美CNN:MAE预训练的Primus-M在部分数据集超越最强ResEnc-L
  3. 系统性benchmark:统一数据、架构、评估,7种方法 × 2种架构 × 15个下游任务,结论可靠
  4. 微调策略的重要性:发现微调策略对预训练效果影响极大,Sawtooth/Warm-Up远优于简单微调
  5. 完整开源生态:数据集、代码框架、所有checkpoint、集成nnU-Net,极具实用价值
  6. 数据质量元数据(IQS)首次探索data-centric方法在3D医学SSL中的可行性

局限性 / 可改进方向

  1. 仅限脑MRI:预训练数据全部是头颈部MRI,对CT、胸腹部等场景迁移效果待验证
  2. 分类实验不够可靠:分类pipeline不如nnU-Net成熟,部分数据集接近随机(ABI~50% balanced accuracy)
  3. 数据过滤效果有限:简单IQS过滤仅带来微弱提升,data-centric方法潜力未充分挖掘
  4. 仅训练1000 epochs:受算力限制,更长预训练可能揭示不同趋势
  5. 没有探索PEFT方法:冻结encoder表现差,但LoRA等参数高效微调可能改善
  6. 未探索元数据感知的SSL方法:数据集提供了丰富元数据但未在预训练中利用

与相关工作的对比

方面 本文 以前工作
预训练数据 114k公开3D MRI 小规模或私有数据(如ABCD需审批)
架构对比 统一比较CNN+Transformer 各用各的架构
下游评估 15个数据集,开发/测试分离 少数数据集,结果不稳定
可复现性 全部开源(数据+代码+权重) 多数不可复现

与CT-Rate(50k CT)互补:OpenMind专注MRI,更大规模(114k),许可更宽松(CC-BY vs CC-BY-NC)。

启发与关联

  • 对Transformer在医学图像中的前景证据:首次大规模证明预训练可弥合Transformer与CNN的性能差距
  • 微调策略研究方向:在其他SSL+医学任务中也应重视微调策略选择
  • Data-centric SSL:虽然简单过滤效果有限,但数据集足够大可支撑更复杂的data curation方法(如语义去重、课程学习)
  • 跨模态预训练:未来可结合CT数据集(如CT-Rate)进行多模态SSL
  • PEFT方法的迫切需求:给定冻结encoder效果差+长期微调过拟合,LoRA/Adapter等方法在3D SSL微调中大有可为

评分

  • 新颖性: ⭐⭐⭐⭐ [非方法创新,但数据集+benchmark的系统性贡献非常有价值,首次建立3D医学SSL标准]
  • 实验充分度: ⭐⭐⭐⭐⭐ [7种方法×2架构×15数据集×5微调策略+数据过滤+匿名化消融,极其全面]
  • 写作质量: ⭐⭐⭐⭐⭐ [结构清晰,实验设计严谨,findings总结到位]
  • 价值: ⭐⭐⭐⭐⭐ [数据集+benchmark+开源框架对社区价值极大,将成为3D医学SSL的标准参考]