跳转至

Multi-modal Vision Pre-training for Medical Image Analysis (BrainMVP)

会议: CVPR 2025
arXiv: 2410.10604
代码: https://github.com/openmedlab/BrainMVP
领域: 医学图像 / 自监督预训练
关键词: 多模态MRI预训练, 跨模态重建, 模态数据蒸馏, 模态感知对比学习, 脑部MRI

一句话总结

BrainMVP提出首个多模态视觉预训练范式,通过跨模态掩码重建、模态模板蒸馏和模态感知对比学习三个代理任务,在16,022例多参数脑MRI扫描(240万+图像)上预训练ViT,在六个分割和四个分类下游任务上均超越SOTA,Dice Score提升最高达14.47%。

研究背景与动机

  1. 领域现状:医学图像分析的自监督预训练主要在单模态数据上进行——CT(如VoCo)、MRI(如M3AE)、X-ray等,或在混合模态数据上训练但各模态独立处理。方法以实例级判别(对比学习)或图像重建(MAE)为主。
  2. 现有痛点:(a) 单模态SSL无法建模跨模态关系——但在临床中,同一患者的多参数MRI(mpMRI)扫描天然具有强对应关系,包含互补的病理特征;(b) 混合模态SSL虽联合训练但不同数据源限制了跨模态理解;(c) 现实中常遇模态缺失问题——获取完整mpMRI受限于采集协议和设备限制,大规模预训练数据中模态不匹配普遍存在。
  3. 核心矛盾:多模态MRI数据自然成组且互补,但现有预训练框架未充分利用跨模态相关性来学习可迁移的表示。同时,预训练代理任务与下游任务目标脱节,缺乏连接两者的桥梁。
  4. 本文目标 (1) 如何利用mpMRI的跨模态相关性学习更通用的表示?(2) 如何处理预训练中的模态缺失/不匹配问题?(3) 如何缩小预训练代理任务与下游应用之间的鸿沟?
  5. 切入角度:作者利用不同MRI模态在解剖结构上的高度相似性(仅在特定区域有对比差异),设计跨模态掩码重建迫使模型学习模态间的转换关系;同时受dataset distillation启发,学习可学习的模态模板作为预训练与下游任务间的信息桥梁。
  6. 核心 idea:用另一模态的patch替换掩码区域来重建原模态、蒸馏出无患者信息的模态模板来桥接下游应用、对比学习保持跨模态特征一致性,三者协同学习模态感知的通用表示。

方法详解

整体框架

输入为单模态MRI体积,采用ViT编码器-解码器架构。预训练同时进行三个代理任务:(1) 跨模态重建:将输入图像大部分区域替换为另一模态图像的对应位置patch,要求模型从主要是另一模态信息的输入中重建原始模态图像;(2) 模态数据蒸馏:类似(1)但替换来源是可学习的模态模板而非另一模态图像,模板通过梯度反传自动优化;(3) 模态感知对比学习:将(1)和(2)产生的两个masked版本的同一模态图像的编码特征作为正对,InfoNCE损失对齐。三个损失加权求和。

关键设计

  1. 跨模态掩码重建:

    • 功能:学习跨模态表示和不同MRI模态间的转换关系
    • 核心思路:给定单模态输入 \(X_{im}\),随机掩码大部分区域并用同一患者另一模态 \(X_{in}\) 的对应位置patch填充。掩码-填充重复执行直到掩码比例达到 \(p^*=0.875\)。结果输入 \(\Phi_{modal}(X_{im}, X_{in})\) 主要包含模态n的信息,但重建目标是模态m。由于mpMRI各模态解剖结构高度相似仅在特定区域有对比差异,这个看似困难的跨模态重建任务在医学MRI中是可行的。损失为 \(\mathcal{L}_{CMR} = \|\mathcal{F}_{dec}(\mathcal{F}_{enc}(\Phi_{modal}(X_{im}, X_{in}))) - X_{im}\|_2\)
    • 设计动机:不引入skip connection,迫使编码器的latent表示必须编码足够的跨模态语义信息来支持重建,由此学到的表示是模态无关的且包含各模态融合信息
  2. 模态数据蒸馏与模板:

    • 功能:学习无患者信息的模态结构模板,桥接预训练与下游任务
    • 核心思路:初始化一组全零的可学习模板 \(T = \{T_m\}_{m=1}^S\)(S为模态数,尺寸与输入相同),类似跨模态重建但用 \(T_m\) 替代另一模态来填充掩码区域:\(\mathcal{L}_{MD} = \|\mathcal{F}_{dec}(\mathcal{F}_{enc}(\Phi_{distill}(X_{im}, T_m))) - X_{im}\|_2\)。模板通过梯度反传沿预训练轨迹优化,最终收敛为每种模态的紧凑结构表示
    • 设计动机:灵感来自dataset distillation——蒸馏出的数据集能达到接近原始数据集的训练效果。模态模板保留了特定模态的共享结构和统计信息且不泄露患者隐私,在下游任务中可作为数据增强的来源来弥合域差距
  3. 模态感知对比学习:

    • 功能:在特征层面保持跨模态和模板-图像间的一致性
    • 核心思路:\(\Phi_{modal}(X_{im}, X_{in})\)\(\Phi_{distill}(X_{im}, T_m)\) 都保留了 \((1-p^*)\) 比例的模态m信息,具有部分语义一致性。将两者的编码特征 \(f_{im}\)\(g_{im}\) 作为正对,用InfoNCE损失对齐:\(\mathcal{L}_{CL} = \frac{1}{2}(\mathcal{L}_{f_{im}\to g_{im}} + \mathcal{L}_{g_{im}\to f_{im}})\)。在epoch 1000引入(待模板视觉质量收敛后)
    • 设计动机:重建任务在像素级别操作,对比学习在特征级别引入模态不变性,两者互补

损失函数 / 训练策略

总损失:\(\mathcal{L}_{SSL} = \frac{1}{|\mathcal{B}|}\sum_{i}\frac{1}{M_i}\sum_m(\mathcal{L}_{CMR} + \lambda_{MD}\mathcal{L}_{MD} + \lambda_{CL}\mathcal{L}_{CL})\)\(\lambda_{MD}=\lambda_{CL}=1.0\)。使用UniFormer或UNET3D作为backbone。8块RTX 4090训练1500 epochs,batch size=3,AdamW优化器,初始学习率3e-4余弦衰减。预训练数据由BraTS2021/2023、UCSF-PDGM、IXI等5个来源的16,022例mpMRI组成(3,755患者,8种模态)。下游任务中将模态模板随机替换部分多模态输入作为数据增强。

实验关键数据

主实验

分割任务(Dice Score %):

数据集 BrainMVP(UniFormer) M3AE(UniFormer) Mask3D概念等价 提升
BraTS2023-PED (AVG) 76.80 74.14 - +2.66
BraTS-MET (AVG) 73.67 70.39 - +3.28
ISLES22 (IS) 86.60 86.32 - +0.28
MRBrainS13 (AVG) 80.27 77.29 - +2.98
VSseg (VS) 83.64 79.31 - +4.33
UPENN-GBM (AVG) 90.01 89.63 - +0.38

分类任务(Accuracy):

数据集 BrainMVP 最佳对比方法 提升
BraTS2018 (ACC) 0.8596 0.7895(UNETR) +7.01%
ADNI (ACC) 0.6218 0.6092(MoCov3) +1.26%
ADHD-200 (ACC) 0.6948 0.6818(TransVW) +1.30%
ABIDE-I (ACC) 0.6545 0.6424(GVSL) +1.21%

消融实验

基于Table 4(补充材料中的消融,从论文上下文推断):

配置 说明
CMR only 跨模态重建基线
CMR + MD 加模态蒸馏,提升泛化
CMR + MD + CL 完整方法,对比学习在epoch 1000引入

标签效率实验显示:BrainMVP在仅20%标注数据时即可接近其他方法100%数据的性能,且随数据比例增加优势始终保持。

关键发现

  • 通用SSL方法(MAE3D、MoCov3)在医学图像上效果远不如医学专用SSL,差距可达9%+ Dice Score
  • 跨模态重建在mpMRI中可行的关键是不同MRI模态在解剖结构上高度相似
  • 模态模板在下游应用中的数据增强效果显著——用模板替换部分多模态输入可提升模态缺失场景下的鲁棒性
  • 对比学习需在模板收敛后引入(epoch 1000),过早引入不稳定
  • BrainMVP在脑肿瘤分割、脑转移灶分割、缺血性中风病灶分割等多样化任务上均有效,泛化性强

亮点与洞察

  • 跨模态掩码重建的设计极其巧妙:利用医学MRI各模态解剖结构相似的领域特性,将掩码区域用另一模态填充而非随机噪声,让模型学到的是跨模态转换而非简单的补全。这种设计在多模态数据天然成对的场景(如遥感多光谱、多角度拍摄)都可应用
  • 模态模板作为预训练-下游桥梁的思路很新颖:受dataset distillation启发但用途不同——不是为了压缩数据集而是为了学习无隐私泄露的模态先验,可在下游任务中作为augmentation使用
  • 单模态输入设计使系统天然支持模态缺失,比要求固定模态数的方法实用性强得多

局限与展望

  • 仅在脑MRI上验证,未扩展到其他解剖区域(如腹部、胸部多模态MRI)或其他模态组合(如CT-MRI跨模态)
  • 模态模板目前是每种模态一个全局模板,未考虑疾病类型/患者群体的差异
  • 预训练数据集3,755例虽然在医学领域算大规模,但相比自然图像仍然有限
  • 对比学习的引入时机(epoch 1000)是经验性的,缺乏理论指导
  • 13种不同下游数据集的实验虽然全面,但每个数据集的训练细节可能需要调整大量超参数

相关工作与启发

  • vs M3AE: M3AE也用MIM+多模态但仅在MRI上做跨模态掩码重建;BrainMVP增加了模态蒸馏和对比学习,且在更大数据上预训练
  • vs VoCo: VoCo利用CT中的上下文位置先验学一致性表示,BrainMVP利用mpMRI的跨模态关系学模态无关表示,两者切入角度不同
  • vs MultiMAE: MultiMAE需要语义标签参与预训练且需多模态微调,BrainMVP仅需未标注的mpMRI预训练且支持单模态微调
  • 模态模板的概念可推广为"领域知识胶囊"——将大规模预训练中学到的领域先验封装为可迁移的参数化模块

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 三个代理任务的设计都有独到的思考,模态模板是全新概念
  • 实验充分度: ⭐⭐⭐⭐⭐ 10个下游任务(6分割+4分类)+标签效率实验+多种backbone对比,非常全面
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,各模块的动机和设计逻辑连贯
  • 价值: ⭐⭐⭐⭐⭐ 首个多模态MRI视觉预训练范式,对医学图像SSL具有范式级影响

相关论文