Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation¶

会议: CVPR 2026
arXiv: 2603.12581
代码: https://github.com/ziyi-start/MSG-LDM (有)
领域: 医学图像 / MRI合成 / 扩散模型
关键词: 多模态MRI翻译, 潜在扩散模型, 风格-结构解耦, 多尺度特征增强, 缺失模态

一句话总结¶

提出MSG-LDM，一个基于潜在扩散模型的多模态MRI翻译框架，通过在潜空间中显式解耦风格和结构信息，结合高频注入（HFIB）、多模态结构特征融合（MMSF）和多尺度结构增强（MSSE）模块提取模态无关的完整结构先验来引导扩散去噪，在BraTS2020和WMH数据集上超越现有方法。

背景与动机¶

多模态MRI（T1、T2、T1CE、FLAIR）在脑肿瘤分割和病变分析中提供互补信息，但临床中由于采集时间长、患者耐受度差、设备限制等原因经常面临模态缺失问题。基于扩散模型的MRI合成方法虽然优于GAN，但仍存在以下痛点：

解剖结构不一致：传统扩散模型缺乏结构感知能力，在处理任意缺失模态场景时可能产生结构畸变
高频细节退化：边缘、纹理等高频信息在迭代去噪过程中容易丢失
风格-结构纠缠：不同MRI序列有各自的对比度风格（如T1亮灰质暗白质、T2则相反），结构信息和模态特定风格混杂在一起，限制了合成保真度

核心问题¶

如何在多模态MRI翻译中有效解耦结构信息与模态特定风格，并利用包含低频解剖布局和高频边界细节的完整结构先验来引导扩散过程，使得在任意缺失模态场景下都能生成解剖一致且细节完整的MRI图像？

方法详解¶

整体框架¶

MSG-LDM在VAE的潜空间中工作。给定多模态输入 \(\{X_j\}_{j=1}^M\)： - 首先通过部分遮蔽策略模拟缺失模态场景 - 每个模态配备独立的结构编码器 \(E_j^{str}\)（含HFIB）、风格编码器 \(E_j^{sty}\)、重建解码器 \(D_j^{rec}\) - 所有模态共享一个分割解码器 \(D_{seg}\)，确保结构特征是模态无关的 - 多尺度结构特征经MMSF跨模态融合、MSSE增强后得到统一结构表示 \(F_s\) - 以 \(F_s\) 为条件引导LDM的去噪过程：\(\mathcal{L}_{LDM} = \mathbb{E}\|\epsilon - \epsilon_\theta(z_t, t | F_s)\|^2\)

关键设计¶

HFIB（High-Frequency Injection Block）：在结构编码器的每个尺度（共4个尺度）中插入高频注入模块。使用可学习的动态高斯滤波器将特征分解为低频和高频成分：\(S_j^l = C_l + (C_l - \mathcal{G}_{\theta_l}(C_l))\)。高频残差（边缘、纹理）被重新注入特征，增强结构细节同时保持全局解剖布局不变。关键在于高斯滤波器是可学习的、输入自适应的，而非固定的。
MMSF（Multi-Modal Structural Feature Fusion）：在每个尺度上，对所有可用模态的结构特征通过Sigmoid门控网络计算注意力权重 \(w_j \in [0,1]\)，自适应加权融合：\(F_l = \text{Fusion}(\sum_j w_j S_j^{(l)})\)。这样即使某些模态缺失，也能从剩余模态中最大化聚合结构信息，且门控权重可以自动降低低质量模态的贡献。
MSSE（Multi-Scale Structure Feature Enhancement）：将浅层（尺度1到L-1）的结构特征上采样并投影到最高尺度，通过交叉注意力增强高层表示：\(F_s = F_L + \alpha \cdot \text{Attn}(F_L, \sum_{l=1}^{L-1}\text{Up}(\text{Proj}(F_l)))\)。使最终的统一结构表示同时包含低频全局解剖和高频局部细节，作为扩散过程的条件。

损失函数 / 训练策略¶

分割损失 \(\mathcal{L}_{seg}\)：辅助监督，确保结构特征模态无关（共享分割解码器约束）
风格一致性损失 \(\mathcal{L}_{sc}\)：类似对比学习的BCE目标——同模态风格特征拉近（\(T_{pq}=1\)）、不同模态推远（\(T_{pq}=0\)），用可学习温度参数缩放
结构感知损失 \(\mathcal{L}_{sa}\)：L1重建损失 + 频域SSIM损失。频域SSIM在DCT变换后的幅度谱上计算，同时约束像素级保真度和全局频率分布一致性
扩散损失 \(\mathcal{L}_{ldm}\)：标准LDM去噪损失
总损失 \(\mathcal{L}_{total} = \mathcal{L}_{seg} + \lambda_1 \mathcal{L}_{sc} + \lambda_2 \mathcal{L}_{sa} + \lambda_3 \mathcal{L}_{ldm}\)
Adam优化器，lr=1e-4，batch size=9，3×NVIDIA 4090，100 epochs

实验关键数据¶

WMH数据集：

方法	T1 PSNR↑	T1 SSIM%↑	T1 Dice%	FLAIR PSNR↑	FLAIR SSIM%↑	FLAIR Dice%
MM-GAN	27.66	93.68	0.801	26.88	92.78	0.576
SynDiff	28.42	94.53	0.810	27.89	93.56	0.582
MISA-LDM	28.86	95.23	0.813	28.10	94.65	0.588
MSG-LDM	29.16	96.80	0.818	28.38	95.55	0.595

BraTS2020消融（FLAIR重建任务）：

配置	PSNR↑	SSIM%↑	Dice%↑
w/o 解耦+MMSF	27.92	92.41	85.03
w/o HFIB	28.17	92.68	85.41
w/o MSSE	29.04	93.28	86.55
w/o \(\mathcal{L}_{sa}\)	27.36	91.82	84.27
w/o \(\mathcal{L}_{sc}\)	27.11	91.54	83.89
Full model	29.68	93.62	87.60

消融实验要点¶

风格一致性损失 \(\mathcal{L}_{sc}\) 影响最大：去掉后PSNR暴降2.57dB（29.68→27.11），说明不约束风格编码器会导致严重的风格-结构纠缠
结构感知损失 \(\mathcal{L}_{sa}\) 影响次之：去掉后PSNR降2.32dB，频域SSIM对结构保持至关重要
解耦+MMSF是核心：去掉后PSNR降1.76dB，Dice降2.57%
HFIB贡献显著：去掉后PSNR降1.51dB，高频注入对细节保留重要
MSSE贡献相对较小：去掉后PSNR仅降0.64dB，但对Dice仍有1.05%的贡献

亮点¶

结构引导加速扩散：论文Fig.1直观展示——在引入结构先验后，扩散模型在相同时间步的去噪结果更清晰、结构更稳定，间接说明结构先验可以加速收敛
频域SSIM损失：在DCT空间做SSIM是一个巧妙设计，能同时约束频率分布和结构一致性
可学习高频分离：不用固定高通滤波器而是数据驱动的动态高斯滤波，更灵活地适应不同尺度的高频模式
共享分割解码器约束模态无关性：用额外的分割任务约束结构特征跨模态的一致性，是一个简单有效的辅助监督信号

局限性 / 可改进方向¶

仅在BraTS2020（369例）和WMH两个数据集上验证，规模较小
2D切片级处理（192×192），没有利用MRI的3D体积连续性——可扩展到2.5D或3D
每个模态都需要独立的结构编码器和风格编码器，模态数增加时参数量线性增长
对比方法只有3个（MM-GAN、SynDiff、MISA-LDM），缺少与更多最新方法的比较
未与基于Transformer架构的扩散模型（如DiT）比较

与相关工作的对比¶

vs MISA-LDM（MICCAI 2025）：也基于LDM做多模态MRI合成且处理缺失模态，但MISA-LDM的结构建模不够显式。MSG-LDM通过HFIB+MMSF+MSSE系统性地处理多尺度结构，在WMH上T1 SSIM提升了1.57%（95.23→96.80）
vs SynDiff：SynDiff基于对抗扩散的无监督翻译方法，MSG-LDM在结构保真度上更优，得益于显式的结构先验引导
vs MM-GAN：GAN基线在所有指标上被MSG-LDM大幅超越，尤其在缺失模态较多时差距更明显

启发与关联¶

与ideas中的2D→3D医学蒸馏有直接关联——MSG-LDM的多尺度结构表示可以作为3D预训练中的2D切片级结构先验
风格-结构解耦的思路对任何涉及域适应的医学图像任务都有参考价值
高频注入+频域损失的组合可以迁移到其他医学图像生成任务（CT合成、PET合成等）
共享分割解码器作为模态无关性约束的思路值得借鉴

评分¶

新颖性: ⭐⭐⭐ 各模块设计合理但非突破性创新，主要是多个已知技术的系统化组合
实验充分度: ⭐⭐⭐ 两个数据集+消融，但对比方法较少（仅3个）且数据规模不大
写作质量: ⭐⭐⭐⭐ 结构清晰，图示直观，方法描述明确
价值: ⭐⭐⭐⭐ 解决临床MRI缺失模态问题有实际意义，代码开源有利于复现