跳转至

Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation

会议: CVPR2025
arXiv: 2603.12581
代码: GitHub
领域: medical_imaging
关键词: MRI合成, 潜在扩散模型, 多模态翻译, 结构引导, 缺失模态

一句话总结

提出 MSG-LDM 框架,在潜在空间中显式解耦风格与结构信息,通过高频注入块 (HFIB)、多模态结构特征融合 (MMSF) 和多尺度结构增强 (MSSE) 提取模态不变的多尺度结构先验来引导扩散过程,解决任意模态缺失下 MRI 翻译的解剖不一致和纹理退化问题。

研究背景与动机

  • 多模态 MRI(T1、T2、T1CE、FLAIR)提供互补的解剖和病理信息,广泛用于脑肿瘤分割和病灶分析
  • 临床中因采集时间长、患者耐受性差、设备/成本限制,常出现模态缺失,严重影响多模态分析算法性能
  • 扩散模型在图像生成上取得显著进展,已被用于医学图像合成,在结构保真度和视觉质量上优于 GAN
  • 但现有扩散方法在任意缺失模态下仍存在三个问题:(1) 解剖结构可能失真,(2) 高频细节退化,(3) 结构信息与模态特异风格纠缠
  • 关键洞察:扩散模型本身对医学图像的结构信息不敏感,显式引入结构先验可加速生成并提升解剖保真度

方法详解

整体框架

在 VAE 潜在空间进行扩散过程。每个模态配备独立的结构编码器 E_j^str(含 HFIB)、风格编码器 E_j^sty 和重建解码器 D_j^rec,所有模态共享分割解码器 D_seg 以确保结构特征的模态不变性。

高频注入块 (HFIB)

  • 在结构编码器的每个尺度,通过可学习的动态高斯滤波器分解特征
  • C_high^l = C^l - G_θ(C^l) 提取高频残差(边缘和纹理),重新注入原始特征
  • S_j^l = C^l + C_high^l,增强结构细节而不改变全局解剖布局
  • 高斯滤波器参数是输入自适应的,可根据内容动态调整

多模态结构特征融合 (MMSF)

  • 在每个尺度 l,通过 Sigmoid 门控网络计算各模态的注意力权重 w_j
  • 加权求和后经可学习卷积融合:F_l = Fusion(Σ w_j · S_j^(l))
  • 强调信息丰富的结构,抑制无关的模态特异变化

多尺度结构特征增强 (MSSE)

  • 将低尺度(1到L-1)的融合特征通过 1×1 卷积投影并双线性插值上采样到最高尺度
  • 最高尺度表示通过交叉注意力从低尺度结构引导特征获取增强
  • F_s = F_L + α·Attn(F_L, Σ Up(Proj(F_l)))
  • 统一结构表示 F_s 同时整合低频全局解剖布局和高频细节结构

风格一致性损失 (L_sc)

  • 类似对比学习:同一模态的风格特征拉近,不同模态的推远
  • mini-batch 内所有风格特征 L2 归一化后计算温度缩放的点积相似度
  • 通过二元交叉熵目标优化,温度参数可学习
  • 鼓励风格编码器抑制模态特异风格变化

结构感知损失 (L_sa)

  • 重建部分:用解耦的结构特征 F_s 和风格特征 S_j 重建图像,L1 损失约束像素级保真度
  • 频域部分:对重建和真值图像做 2D DCT 变换,比较幅度谱的 SSIM
  • L_sa = L_rec + L_freq,联合约束整体解剖结构和细粒度细节

总训练目标

L_total = L_seg + λ1·L_sc + λ2·L_sa + λ3·L_ldm,其中 L_seg 为辅助分割损失,L_ldm 为标准扩散去噪损失。

实验关键数据

数据集与设置

  • BraTS2020:369例多模态脑MRI(T1/T2/T1CE/FLAIR),带肿瘤分割标注
  • WMH:多区域T1和FLAIR图像,带白质高信号标注
  • 预处理:轴向切片为 192×192 2D图像
  • 训练:PyTorch 2.1.0,Adam (lr=1e-4),batch=9,3×NVIDIA 4090,100 epochs

BraTS2020 定量结果(Table 1,3模态可用→合成第4模态)

方法 T1 PSNR T1 SSIM% T1CE PSNR T1CE SSIM%
MM-GAN 27.35 92.32 28.65 94.19
SynDiff 28.95 93.34 30.65 94.86
MISA-LDM 29.01 93.86 30.68 95.62
MSG-LDM 30.26 94.37 31.35 96.29

WMH 数据集结果(Table 2)

方法 FLAIR→T1 PSNR FLAIR→T1 SSIM% T1→FLAIR PSNR
MISA-LDM 28.86 95.23 28.10
MSG-LDM 29.16 96.80 28.38

消融实验(Table 3,FLAIR重建)

配置 PSNR SSIM% Dice%
w/o 解耦+MMSF 27.92 92.41 85.03
w/o HFIB 28.17 92.68 85.41
w/o MSSE 29.04 93.28 86.55
w/o L_sa 27.36 91.82 84.27
w/o L_sc 27.11 91.54 83.89
Full model 29.68 93.62 87.60
  • 去掉 L_sc 影响最大(PSNR -2.57),说明风格一致性对结构解耦至关重要

亮点

  1. 结构先验加速扩散:实验表明扩散模型天然对医学图像结构不敏感,显式注入结构先验不仅提升质量还加速生成过程
  2. 优雅的风格-结构解耦:通过共享分割解码器强制结构特征模态不变,风格一致性损失进一步抑制风格干扰
  3. 多尺度高频保持:HFIB 用可学习动态高斯滤波器在每个尺度注入高频细节,比固定频率分解更灵活
  4. 跨尺度结构增强:MSSE 通过交叉注意力让高层特征关注低层的精细结构线索
  5. 任意缺失模态处理:框架自然支持任意模态组合输入,随可用模态增加生成质量渐进提升

局限性

  1. 实验仅在 2D 切片上进行,未验证 3D 体积合成性能
  2. 仅在脑部 MRI 上验证,未扩展到其他解剖区域或成像模态(如 CT、PET)
  3. 每个模态需独立的编码器和解码器,模态数增加时参数量线性增长
  4. 训练需要配对的多模态数据和分割标注,数据要求较高
  5. 定量评估主要依赖 PSNR/SSIM/Dice,缺乏感知质量指标(如 FID)和下游任务验证

评分

  • 新颖性: ⭐⭐⭐ — 各组件(HFIB、MMSF、MSSE)都有合理设计但单独看不算特别新颖,组合起来效果显著
  • 实验充分度: ⭐⭐⭐⭐ — 两个数据集、多种模态组合、详细消融,足够完整
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图示直观,公式简洁
  • 价值: ⭐⭐⭐⭐ — 缺失模态 MRI 合成是临床刚需,方法实用且开源