Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation¶
会议: CVPR2025
arXiv: 2603.12581
代码: GitHub
领域: medical_imaging
关键词: MRI合成, 潜在扩散模型, 多模态翻译, 结构引导, 缺失模态
一句话总结¶
提出 MSG-LDM 框架,在潜在空间中显式解耦风格与结构信息,通过高频注入块 (HFIB)、多模态结构特征融合 (MMSF) 和多尺度结构增强 (MSSE) 提取模态不变的多尺度结构先验来引导扩散过程,解决任意模态缺失下 MRI 翻译的解剖不一致和纹理退化问题。
研究背景与动机¶
- 多模态 MRI(T1、T2、T1CE、FLAIR)提供互补的解剖和病理信息,广泛用于脑肿瘤分割和病灶分析
- 临床中因采集时间长、患者耐受性差、设备/成本限制,常出现模态缺失,严重影响多模态分析算法性能
- 扩散模型在图像生成上取得显著进展,已被用于医学图像合成,在结构保真度和视觉质量上优于 GAN
- 但现有扩散方法在任意缺失模态下仍存在三个问题:(1) 解剖结构可能失真,(2) 高频细节退化,(3) 结构信息与模态特异风格纠缠
- 关键洞察:扩散模型本身对医学图像的结构信息不敏感,显式引入结构先验可加速生成并提升解剖保真度
方法详解¶
整体框架¶
在 VAE 潜在空间进行扩散过程。每个模态配备独立的结构编码器 E_j^str(含 HFIB)、风格编码器 E_j^sty 和重建解码器 D_j^rec,所有模态共享分割解码器 D_seg 以确保结构特征的模态不变性。
高频注入块 (HFIB)¶
- 在结构编码器的每个尺度,通过可学习的动态高斯滤波器分解特征
- C_high^l = C^l - G_θ(C^l) 提取高频残差(边缘和纹理),重新注入原始特征
- S_j^l = C^l + C_high^l,增强结构细节而不改变全局解剖布局
- 高斯滤波器参数是输入自适应的,可根据内容动态调整
多模态结构特征融合 (MMSF)¶
- 在每个尺度 l,通过 Sigmoid 门控网络计算各模态的注意力权重 w_j
- 加权求和后经可学习卷积融合:F_l = Fusion(Σ w_j · S_j^(l))
- 强调信息丰富的结构,抑制无关的模态特异变化
多尺度结构特征增强 (MSSE)¶
- 将低尺度(1到L-1)的融合特征通过 1×1 卷积投影并双线性插值上采样到最高尺度
- 最高尺度表示通过交叉注意力从低尺度结构引导特征获取增强
- F_s = F_L + α·Attn(F_L, Σ Up(Proj(F_l)))
- 统一结构表示 F_s 同时整合低频全局解剖布局和高频细节结构
风格一致性损失 (L_sc)¶
- 类似对比学习:同一模态的风格特征拉近,不同模态的推远
- mini-batch 内所有风格特征 L2 归一化后计算温度缩放的点积相似度
- 通过二元交叉熵目标优化,温度参数可学习
- 鼓励风格编码器抑制模态特异风格变化
结构感知损失 (L_sa)¶
- 重建部分:用解耦的结构特征 F_s 和风格特征 S_j 重建图像,L1 损失约束像素级保真度
- 频域部分:对重建和真值图像做 2D DCT 变换,比较幅度谱的 SSIM
- L_sa = L_rec + L_freq,联合约束整体解剖结构和细粒度细节
总训练目标¶
L_total = L_seg + λ1·L_sc + λ2·L_sa + λ3·L_ldm,其中 L_seg 为辅助分割损失,L_ldm 为标准扩散去噪损失。
实验关键数据¶
数据集与设置¶
- BraTS2020:369例多模态脑MRI(T1/T2/T1CE/FLAIR),带肿瘤分割标注
- WMH:多区域T1和FLAIR图像,带白质高信号标注
- 预处理:轴向切片为 192×192 2D图像
- 训练:PyTorch 2.1.0,Adam (lr=1e-4),batch=9,3×NVIDIA 4090,100 epochs
BraTS2020 定量结果(Table 1,3模态可用→合成第4模态)¶
| 方法 | T1 PSNR | T1 SSIM% | T1CE PSNR | T1CE SSIM% |
|---|---|---|---|---|
| MM-GAN | 27.35 | 92.32 | 28.65 | 94.19 |
| SynDiff | 28.95 | 93.34 | 30.65 | 94.86 |
| MISA-LDM | 29.01 | 93.86 | 30.68 | 95.62 |
| MSG-LDM | 30.26 | 94.37 | 31.35 | 96.29 |
WMH 数据集结果(Table 2)¶
| 方法 | FLAIR→T1 PSNR | FLAIR→T1 SSIM% | T1→FLAIR PSNR |
|---|---|---|---|
| MISA-LDM | 28.86 | 95.23 | 28.10 |
| MSG-LDM | 29.16 | 96.80 | 28.38 |
消融实验(Table 3,FLAIR重建)¶
| 配置 | PSNR | SSIM% | Dice% |
|---|---|---|---|
| w/o 解耦+MMSF | 27.92 | 92.41 | 85.03 |
| w/o HFIB | 28.17 | 92.68 | 85.41 |
| w/o MSSE | 29.04 | 93.28 | 86.55 |
| w/o L_sa | 27.36 | 91.82 | 84.27 |
| w/o L_sc | 27.11 | 91.54 | 83.89 |
| Full model | 29.68 | 93.62 | 87.60 |
- 去掉 L_sc 影响最大(PSNR -2.57),说明风格一致性对结构解耦至关重要
亮点¶
- 结构先验加速扩散:实验表明扩散模型天然对医学图像结构不敏感,显式注入结构先验不仅提升质量还加速生成过程
- 优雅的风格-结构解耦:通过共享分割解码器强制结构特征模态不变,风格一致性损失进一步抑制风格干扰
- 多尺度高频保持:HFIB 用可学习动态高斯滤波器在每个尺度注入高频细节,比固定频率分解更灵活
- 跨尺度结构增强:MSSE 通过交叉注意力让高层特征关注低层的精细结构线索
- 任意缺失模态处理:框架自然支持任意模态组合输入,随可用模态增加生成质量渐进提升
局限性¶
- 实验仅在 2D 切片上进行,未验证 3D 体积合成性能
- 仅在脑部 MRI 上验证,未扩展到其他解剖区域或成像模态(如 CT、PET)
- 每个模态需独立的编码器和解码器,模态数增加时参数量线性增长
- 训练需要配对的多模态数据和分割标注,数据要求较高
- 定量评估主要依赖 PSNR/SSIM/Dice,缺乏感知质量指标(如 FID)和下游任务验证
评分¶
- 新颖性: ⭐⭐⭐ — 各组件(HFIB、MMSF、MSSE)都有合理设计但单独看不算特别新颖,组合起来效果显著
- 实验充分度: ⭐⭐⭐⭐ — 两个数据集、多种模态组合、详细消融,足够完整
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,图示直观,公式简洁
- 价值: ⭐⭐⭐⭐ — 缺失模态 MRI 合成是临床刚需,方法实用且开源