Multi-modal Vision Pre-training for Medical Image Analysis (BrainMVP)¶
会议: CVPR 2025
arXiv: 2410.10604
代码: https://github.com/openmedlab/BrainMVP
领域: 医学图像 / 自监督预训练
关键词: 多模态MRI预训练, 跨模态重建, 模态数据蒸馏, 模态感知对比学习, 脑部MRI
一句话总结¶
BrainMVP提出首个多模态视觉预训练范式,通过跨模态掩码重建、模态模板蒸馏和模态感知对比学习三个代理任务,在16,022例多参数脑MRI扫描(240万+图像)上预训练ViT,在六个分割和四个分类下游任务上均超越SOTA,Dice Score提升最高达14.47%。
研究背景与动机¶
- 领域现状:医学图像分析的自监督预训练主要在单模态数据上进行——CT(如VoCo)、MRI(如M3AE)、X-ray等,或在混合模态数据上训练但各模态独立处理。方法以实例级判别(对比学习)或图像重建(MAE)为主。
- 现有痛点:(a) 单模态SSL无法建模跨模态关系——但在临床中,同一患者的多参数MRI(mpMRI)扫描天然具有强对应关系,包含互补的病理特征;(b) 混合模态SSL虽联合训练但不同数据源限制了跨模态理解;(c) 现实中常遇模态缺失问题——获取完整mpMRI受限于采集协议和设备限制,大规模预训练数据中模态不匹配普遍存在。
- 核心矛盾:多模态MRI数据自然成组且互补,但现有预训练框架未充分利用跨模态相关性来学习可迁移的表示。同时,预训练代理任务与下游任务目标脱节,缺乏连接两者的桥梁。
- 本文目标 (1) 如何利用mpMRI的跨模态相关性学习更通用的表示?(2) 如何处理预训练中的模态缺失/不匹配问题?(3) 如何缩小预训练代理任务与下游应用之间的鸿沟?
- 切入角度:作者利用不同MRI模态在解剖结构上的高度相似性(仅在特定区域有对比差异),设计跨模态掩码重建迫使模型学习模态间的转换关系;同时受dataset distillation启发,学习可学习的模态模板作为预训练与下游任务间的信息桥梁。
- 核心 idea:用另一模态的patch替换掩码区域来重建原模态、蒸馏出无患者信息的模态模板来桥接下游应用、对比学习保持跨模态特征一致性,三者协同学习模态感知的通用表示。
方法详解¶
整体框架¶
输入为单模态MRI体积,采用ViT编码器-解码器架构。预训练同时进行三个代理任务:(1) 跨模态重建:将输入图像大部分区域替换为另一模态图像的对应位置patch,要求模型从主要是另一模态信息的输入中重建原始模态图像;(2) 模态数据蒸馏:类似(1)但替换来源是可学习的模态模板而非另一模态图像,模板通过梯度反传自动优化;(3) 模态感知对比学习:将(1)和(2)产生的两个masked版本的同一模态图像的编码特征作为正对,InfoNCE损失对齐。三个损失加权求和。
关键设计¶
-
跨模态掩码重建:
- 功能:学习跨模态表示和不同MRI模态间的转换关系
- 核心思路:给定单模态输入 \(X_{im}\),随机掩码大部分区域并用同一患者另一模态 \(X_{in}\) 的对应位置patch填充。掩码-填充重复执行直到掩码比例达到 \(p^*=0.875\)。结果输入 \(\Phi_{modal}(X_{im}, X_{in})\) 主要包含模态n的信息,但重建目标是模态m。由于mpMRI各模态解剖结构高度相似仅在特定区域有对比差异,这个看似困难的跨模态重建任务在医学MRI中是可行的。损失为 \(\mathcal{L}_{CMR} = \|\mathcal{F}_{dec}(\mathcal{F}_{enc}(\Phi_{modal}(X_{im}, X_{in}))) - X_{im}\|_2\)
- 设计动机:不引入skip connection,迫使编码器的latent表示必须编码足够的跨模态语义信息来支持重建,由此学到的表示是模态无关的且包含各模态融合信息
-
模态数据蒸馏与模板:
- 功能:学习无患者信息的模态结构模板,桥接预训练与下游任务
- 核心思路:初始化一组全零的可学习模板 \(T = \{T_m\}_{m=1}^S\)(S为模态数,尺寸与输入相同),类似跨模态重建但用 \(T_m\) 替代另一模态来填充掩码区域:\(\mathcal{L}_{MD} = \|\mathcal{F}_{dec}(\mathcal{F}_{enc}(\Phi_{distill}(X_{im}, T_m))) - X_{im}\|_2\)。模板通过梯度反传沿预训练轨迹优化,最终收敛为每种模态的紧凑结构表示
- 设计动机:灵感来自dataset distillation——蒸馏出的数据集能达到接近原始数据集的训练效果。模态模板保留了特定模态的共享结构和统计信息且不泄露患者隐私,在下游任务中可作为数据增强的来源来弥合域差距
-
模态感知对比学习:
- 功能:在特征层面保持跨模态和模板-图像间的一致性
- 核心思路:\(\Phi_{modal}(X_{im}, X_{in})\) 和 \(\Phi_{distill}(X_{im}, T_m)\) 都保留了 \((1-p^*)\) 比例的模态m信息,具有部分语义一致性。将两者的编码特征 \(f_{im}\) 和 \(g_{im}\) 作为正对,用InfoNCE损失对齐:\(\mathcal{L}_{CL} = \frac{1}{2}(\mathcal{L}_{f_{im}\to g_{im}} + \mathcal{L}_{g_{im}\to f_{im}})\)。在epoch 1000引入(待模板视觉质量收敛后)
- 设计动机:重建任务在像素级别操作,对比学习在特征级别引入模态不变性,两者互补
损失函数 / 训练策略¶
总损失:\(\mathcal{L}_{SSL} = \frac{1}{|\mathcal{B}|}\sum_{i}\frac{1}{M_i}\sum_m(\mathcal{L}_{CMR} + \lambda_{MD}\mathcal{L}_{MD} + \lambda_{CL}\mathcal{L}_{CL})\),\(\lambda_{MD}=\lambda_{CL}=1.0\)。使用UniFormer或UNET3D作为backbone。8块RTX 4090训练1500 epochs,batch size=3,AdamW优化器,初始学习率3e-4余弦衰减。预训练数据由BraTS2021/2023、UCSF-PDGM、IXI等5个来源的16,022例mpMRI组成(3,755患者,8种模态)。下游任务中将模态模板随机替换部分多模态输入作为数据增强。
实验关键数据¶
主实验¶
分割任务(Dice Score %):
| 数据集 | BrainMVP(UniFormer) | M3AE(UniFormer) | Mask3D概念等价 | 提升 |
|---|---|---|---|---|
| BraTS2023-PED (AVG) | 76.80 | 74.14 | - | +2.66 |
| BraTS-MET (AVG) | 73.67 | 70.39 | - | +3.28 |
| ISLES22 (IS) | 86.60 | 86.32 | - | +0.28 |
| MRBrainS13 (AVG) | 80.27 | 77.29 | - | +2.98 |
| VSseg (VS) | 83.64 | 79.31 | - | +4.33 |
| UPENN-GBM (AVG) | 90.01 | 89.63 | - | +0.38 |
分类任务(Accuracy):
| 数据集 | BrainMVP | 最佳对比方法 | 提升 |
|---|---|---|---|
| BraTS2018 (ACC) | 0.8596 | 0.7895(UNETR) | +7.01% |
| ADNI (ACC) | 0.6218 | 0.6092(MoCov3) | +1.26% |
| ADHD-200 (ACC) | 0.6948 | 0.6818(TransVW) | +1.30% |
| ABIDE-I (ACC) | 0.6545 | 0.6424(GVSL) | +1.21% |
消融实验¶
基于Table 4(补充材料中的消融,从论文上下文推断):
| 配置 | 说明 |
|---|---|
| CMR only | 跨模态重建基线 |
| CMR + MD | 加模态蒸馏,提升泛化 |
| CMR + MD + CL | 完整方法,对比学习在epoch 1000引入 |
标签效率实验显示:BrainMVP在仅20%标注数据时即可接近其他方法100%数据的性能,且随数据比例增加优势始终保持。
关键发现¶
- 通用SSL方法(MAE3D、MoCov3)在医学图像上效果远不如医学专用SSL,差距可达9%+ Dice Score
- 跨模态重建在mpMRI中可行的关键是不同MRI模态在解剖结构上高度相似
- 模态模板在下游应用中的数据增强效果显著——用模板替换部分多模态输入可提升模态缺失场景下的鲁棒性
- 对比学习需在模板收敛后引入(epoch 1000),过早引入不稳定
- BrainMVP在脑肿瘤分割、脑转移灶分割、缺血性中风病灶分割等多样化任务上均有效,泛化性强
亮点与洞察¶
- 跨模态掩码重建的设计极其巧妙:利用医学MRI各模态解剖结构相似的领域特性,将掩码区域用另一模态填充而非随机噪声,让模型学到的是跨模态转换而非简单的补全。这种设计在多模态数据天然成对的场景(如遥感多光谱、多角度拍摄)都可应用
- 模态模板作为预训练-下游桥梁的思路很新颖:受dataset distillation启发但用途不同——不是为了压缩数据集而是为了学习无隐私泄露的模态先验,可在下游任务中作为augmentation使用
- 单模态输入设计使系统天然支持模态缺失,比要求固定模态数的方法实用性强得多
局限与展望¶
- 仅在脑MRI上验证,未扩展到其他解剖区域(如腹部、胸部多模态MRI)或其他模态组合(如CT-MRI跨模态)
- 模态模板目前是每种模态一个全局模板,未考虑疾病类型/患者群体的差异
- 预训练数据集3,755例虽然在医学领域算大规模,但相比自然图像仍然有限
- 对比学习的引入时机(epoch 1000)是经验性的,缺乏理论指导
- 13种不同下游数据集的实验虽然全面,但每个数据集的训练细节可能需要调整大量超参数
相关工作与启发¶
- vs M3AE: M3AE也用MIM+多模态但仅在MRI上做跨模态掩码重建;BrainMVP增加了模态蒸馏和对比学习,且在更大数据上预训练
- vs VoCo: VoCo利用CT中的上下文位置先验学一致性表示,BrainMVP利用mpMRI的跨模态关系学模态无关表示,两者切入角度不同
- vs MultiMAE: MultiMAE需要语义标签参与预训练且需多模态微调,BrainMVP仅需未标注的mpMRI预训练且支持单模态微调
- 模态模板的概念可推广为"领域知识胶囊"——将大规模预训练中学到的领域先验封装为可迁移的参数化模块
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 三个代理任务的设计都有独到的思考,模态模板是全新概念
- 实验充分度: ⭐⭐⭐⭐⭐ 10个下游任务(6分割+4分类)+标签效率实验+多种backbone对比,非常全面
- 写作质量: ⭐⭐⭐⭐ 框架清晰,各模块的动机和设计逻辑连贯
- 价值: ⭐⭐⭐⭐⭐ 首个多模态MRI视觉预训练范式,对医学图像SSL具有范式级影响
相关论文¶
- [CVPR 2025] Revisiting MAE Pre-Training for 3D Medical Image Segmentation
- [ICCV 2025] Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training
- [CVPR 2025] Interactive Medical Image Analysis with Concept-based Similarity Reasoning
- [CVPR 2025] Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation
- [CVPR 2025] MR-PLIP: Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation