An OpenMind for 3D Medical Vision Self-supervised Learning¶

会议: ICCV 2025
arXiv: 2412.17041
代码: https://github.com/MIC-DKFZ/nnssl (有)
领域: 医学图像
关键词: 自监督学习, 3D医学图像, 预训练数据集, 脑MRI, 基准测试

一句话总结¶

发布了最大的公开3D医学影像预训练数据集OpenMind（114k脑MRI体积），并在该数据集上系统性benchmark了现有3D SSL方法在最先进CNN（ResEnc-L）和Transformer（Primus-M）架构上的表现，明确了3D医学图像SSL的当前SOTA。

背景与动机¶

3D医学影像SSL领域缺乏一致性和标准化，现有方法无法公平比较，原因有三： 1. 缺乏大规模公开预训练数据集：大型数据集（如UK-BioBank >100k, ABCD >40k）受限于数据使用协议（DUA），要求内部审查、强制署名等，阻碍了可复现研究。多数SSL方法在小规模或私有数据上开发。 2. 架构选择不统一：不同方法使用CNN、ViT、Swin Transformer、混合架构等，无法直接比较方法本身的优劣。 3. 下游评估不一致：评估数据集选择不同且数量少，结果可靠性差。

核心问题¶

如何建立一个标准化的3D医学图像SSL基准：统一预训练数据集、架构选择和评估协议，从而确定SSL预训练的实际价值和当前SOTA？

方法详解¶

整体框架¶

本文并非提出新的SSL方法，而是做了三件关键贡献：

a) OpenMind数据集 - 来源：OpenNeuro平台800个公开研究，遵循BIDS格式 - 规模：114k 3D脑MRI体积（34,191名受试者），23种MRI模态 - 包含71k直接3D MRI扫描 + 15k 4D DWI预处理为43k 3D图像（MD图、FA图、T2加权图） - CC-BY-4.0许可证，无访问限制 - 配套提供：匿名化掩码、解剖掩码、统一元数据、图像质量评分（IQS, 1-5分） - 发布在HuggingFace上

b) SSL Benchmark - 两种SOTA架构：ResEnc-L（CNN）和 Primus-M（Transformer） - 7种SSL方法：VoCo, SwinUNETR预训练, SimCLR, VolumeFusion (VF), ModelsGenesis (MG), MAE, S3D/SimMIM - 15个下游数据集：12个分割 + 3个分类 - 分为4个开发集（用于超参数优化）+ 8个分割测试集 + 3个分类测试集

c) 开源 - 预训练和微调框架代码 - 所有预训练模型checkpoint - 集成到nnU-Net框架

关键设计¶

预训练配置： - 所有方法在OpenMind上统一预训练1000 epochs × 250 steps/epoch - 使用4×40GB A100 DDP训练 - 统一spacing：1mm³各向同性，z-score标准化

五种微调策略（核心创新之一）： 1. Default：多项式lr衰减，初始lr从1e-2降至1e-3（迁移学习设置） 2. Frozen：冻结encoder，仅训练decoder 3. Warm-Up：先线性增加lr，再转入default 4. Valley：先用递减lr训练decoder → 线性warm-up全网络 → default 5. Sawtooth：两阶段warm-up：先冻结encoder用递增lr训练decoder → 全网络递增lr warm-up → default

CNN最优：Sawtooth；Transformer最优：Warm-Up

数据过滤实验（data-centric）： - 按IQS过滤低质量图像（三个阈值） - 按模态过滤（仅保留T1w, T2w, FLAIR） - 匿名化区域是否计入重建损失

损失函数 / 训练策略¶

各SSL方法使用各自标准损失（本文未提出新方法）： - MAE/S3D/SimMIM: L2重建损失（仅在masked区域） - SimCLR: NT-Xent对比损失 - VoCo: 余弦相似度 + 正则化 - VF: 交叉熵分割损失（伪分割任务） - MG: 去噪+掩码重建 - SwinUNETR: 修复 + 旋转预测 + 对比学习（等权重聚合）

微调150或1000 epochs，batch size=2，用nnU-Net框架的polynomial lr。

实验关键数据¶

分割结果（DSC %，150 epochs微调，12个数据集平均）¶

方法	架构	All Mean	ID Mean	OOD Mean	对比Scratch 150ep
Scratch 1k	ResEnc-L	70.47	64.15	89.43	-
Scratch	ResEnc-L	68.44	62.23	87.08	-
MAE	ResEnc-L	70.91	65.11	88.30	+2.47
S3D	ResEnc-L	70.36	64.46	88.06	+1.92
MG	ResEnc-L	70.30	64.37	88.09	+1.86
SimCLR	ResEnc-L	69.44	63.40	87.56	+1.00
VoCo	ResEnc-L	68.50	62.14	87.58	+0.06
Scratch 1k	Primus-M	67.01	60.05	87.90	-
Scratch	Primus-M	63.62	57.29	82.61	-
MAE	Primus-M	70.42	64.34	88.69	+6.80
SimMIM	Primus-M	69.18	62.85	88.16	+5.56
VF	Primus-M	68.19	61.75	87.51	+4.57

关键发现： - MAE预训练的ResEnc-L在150ep微调即超过1000ep从头训练的baseline（70.91 vs 70.47） - Transformer（Primus-M）从预训练中获益远大于CNN（+6.80 vs +2.47） - MAE预训练的Primus-M几乎追平ResEnc-L（70.42 vs 70.91），在部分数据集（ATL, COS, ACD）上甚至超越

分类结果¶

对比学习方法（VoCo, SwinUNETR, SimCLR）在分类上最好
MAE在分类上最差
说明全局特征（对比学习）适合分类，局部特征（重建）适合分割
没有一种SSL方法同时在分割和分类上都表现最佳

消融实验要点¶

微调策略：Sawtooth（CNN）和Warm-Up（Transformer）最优；Frozen策略性能大幅下降，说明当前SSL学到的表征泛化性不足
数据过滤：去除最低质量图像（保留~57%）可略微提升性能（+0.15 DSC）；但减少模态多样性（仅T1w/T2w/FLAIR，保留62%数据）反而降低性能（-0.43 DSC）
匿名化感知：在重建损失中排除匿名化区域可提升MAE和S3D的性能（MAE All Mean: 70.91→71.29）
长期微调：1000ep微调在OOD数据集上有益，但在预训练已有效的数据集上可能退化（过拟合）

亮点¶

数据集贡献巨大：114k 3D脑MRI，最大公开3D医学影像数据集，CC-BY许可，极大降低SSL研究门槛
首次证明预训练Transformer在3D医学分割中可媲美CNN：MAE预训练的Primus-M在部分数据集超越最强ResEnc-L
系统性benchmark：统一数据、架构、评估，7种方法 × 2种架构 × 15个下游任务，结论可靠
微调策略的重要性：发现微调策略对预训练效果影响极大，Sawtooth/Warm-Up远优于简单微调
完整开源生态：数据集、代码框架、所有checkpoint、集成nnU-Net，极具实用价值
数据质量元数据（IQS）首次探索data-centric方法在3D医学SSL中的可行性

局限性 / 可改进方向¶

仅限脑MRI：预训练数据全部是头颈部MRI，对CT、胸腹部等场景迁移效果待验证
分类实验不够可靠：分类pipeline不如nnU-Net成熟，部分数据集接近随机（ABI~50% balanced accuracy）
数据过滤效果有限：简单IQS过滤仅带来微弱提升，data-centric方法潜力未充分挖掘
仅训练1000 epochs：受算力限制，更长预训练可能揭示不同趋势
没有探索PEFT方法：冻结encoder表现差，但LoRA等参数高效微调可能改善
未探索元数据感知的SSL方法：数据集提供了丰富元数据但未在预训练中利用

与相关工作的对比¶

方面	本文	以前工作
预训练数据	114k公开3D MRI	小规模或私有数据（如ABCD需审批）
架构对比	统一比较CNN+Transformer	各用各的架构
下游评估	15个数据集，开发/测试分离	少数数据集，结果不稳定
可复现性	全部开源（数据+代码+权重）	多数不可复现

与CT-Rate（50k CT）互补：OpenMind专注MRI，更大规模（114k），许可更宽松（CC-BY vs CC-BY-NC）。

启发与关联¶

对Transformer在医学图像中的前景证据：首次大规模证明预训练可弥合Transformer与CNN的性能差距
微调策略研究方向：在其他SSL+医学任务中也应重视微调策略选择
Data-centric SSL：虽然简单过滤效果有限，但数据集足够大可支撑更复杂的data curation方法（如语义去重、课程学习）
跨模态预训练：未来可结合CT数据集（如CT-Rate）进行多模态SSL
PEFT方法的迫切需求：给定冻结encoder效果差+长期微调过拟合，LoRA/Adapter等方法在3D SSL微调中大有可为

评分¶

新颖性: ⭐⭐⭐⭐ [非方法创新，但数据集+benchmark的系统性贡献非常有价值，首次建立3D医学SSL标准]
实验充分度: ⭐⭐⭐⭐⭐ [7种方法×2架构×15数据集×5微调策略+数据过滤+匿名化消融，极其全面]
写作质量: ⭐⭐⭐⭐⭐ [结构清晰，实验设计严谨，findings总结到位]
价值: ⭐⭐⭐⭐⭐ [数据集+benchmark+开源框架对社区价值极大，将成为3D医学SSL的标准参考]