Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation¶

会议: CVPR 2026 arXiv: 2603.12581 代码: 有领域: 医学图像 关键词: MRI合成, 潜在扩散模型, 结构引导, 风格-结构解耦, 缺失模态

一句话总结¶

提出 MSG-LDM，在潜在扩散模型中引入多尺度结构-风格解耦机制，通过高频注入、多模态结构特征融合和结构感知损失，实现缺失模态场景下保留解剖结构和精细细节的多模态 MRI 合成。

研究背景与动机¶

1. 领域现状¶

多模态 MRI（T1、T2、T1CE、FLAIR）提供互补的解剖和病理信息，广泛用于脑肿瘤分割和病变分析。但临床中由于采集时间长、患者耐受性差、设备限制等原因，完整的多模态数据常常不可得。

2. 痛点¶

扩散模型已在 MRI 合成中超越 GAN，但现有方法仍存在三个问题：(1) 解剖结构可能失真；(2) 高频细节（边缘、纹理）退化；(3) 结构信息与模态特定风格纠缠，限制合成保真度和一致性。

3. 核心矛盾¶

传统扩散模型缺乏结构感知能力——如论文 Fig.1 所示，标准扩散去噪过程中结构重建不稳定且低效。需要显式结构先验来加速生成并保持解剖保真度。

4. 切入角度¶

在潜在空间中显式分离模态不变的结构特征和模态特定的风格特征，将结构先验注入扩散过程。

方法详解¶

整体框架¶

MSG-LDM 在 VAE 潜在空间中操作，包含四个核心组件： 1. 每个模态一个结构编码器 \(E_j^{\mathrm{str}}\)（含 HFIB）+ 风格编码器 \(E_j^{\mathrm{sty}}\) + 重建解码器 \(D_j^{\mathrm{rec}}\) 2. 所有模态共享一个分割解码器 \(D_{\mathrm{seg}}\)（确保结构特征模态不变） 3. 多模态结构特征融合（MMSF）+ 多尺度结构特征增强（MSSE） → 统一结构表示 \(F_s\) 4. 潜在扩散模型以 \(F_s\) 为条件进行去噪

流程：输入部分可用模态 → 各模态编码结构/风格 → MMSF 跨模态融合 → MSSE 多尺度增强 → \(F_s\) 引导 LDM 去噪 → 合成缺失模态。

关键设计¶

1. 高频注入模块（HFIB）¶

做什么：在结构编码器的每个尺度增强高频结构信息（边缘、纹理）。

核心思路：对第 \(l\) 层内容特征 \(C^l\)，用可学习动态高斯滤波器提取低频分量，残差即为高频分量 \(C_{\mathrm{high}}^l\)，再将高频重新注入原始特征：

\[C_{\mathrm{high}}^l = C^l - \mathcal{G}_{\theta_l}(C^l), \quad S_j^l = C^l + C_{\mathrm{high}}^l\]

设计动机：ViT/CNN 编码器倾向于压缩高频信息，而医学图像中边缘和纹理对诊断至关重要。动态（可学习参数）高斯滤波器比固定滤波器更灵活。

2. 多模态结构特征融合（MMSF）¶

做什么：在每个尺度 \(l\) 融合 \(M\) 个可用模态的结构特征。

核心思路：通过 Sigmoid 门控网络计算每个模态的注意力权重 \(w_j \in [0,1]\)，加权求和后经可学习卷积得到融合特征：

\[F_l = \mathrm{Fusion}\left(\sum_{j=1}^{M} w_j S_j^{(l)}\right)\]

设计动机：不同模态的结构信息互补（T1 vs FLAIR 对不同组织敏感），自适应加权避免某模态主导。

3. 多尺度结构特征增强（MSSE）¶

做什么：将多尺度结构信息注入最高层表示，形成统一结构表示 \(F_s\)。

核心思路：低尺度特征（\(F_1\) 到 \(F_{L-1}\)）经 \(1 \times 1\) 卷积和上采样对齐到最高尺度，通过交叉注意力增强最高层表示：

\[F_s = F_L + \alpha \, \mathrm{Attn}\left(F_L, \sum_{l=1}^{L-1} \mathrm{Up}(\mathrm{Proj}(F_l))\right)\]

设计动机：低尺度捕获全局解剖布局，高尺度保留精细结构；交叉注意力让高层能选择性地从低层补充结构引导。

损失函数 / 训练策略¶

总损失：\(L_{\text{total}} = L_{\text{seg}} + \lambda_1 L_{\text{sc}} + \lambda_2 L_{\text{sa}} + \lambda_3 L_{\text{ldm}}\)

\(L_{\text{seg}}\)：辅助分割损失，确保结构特征模态不变
\(L_{\text{sc}}\)（风格一致性损失）：类似对比学习——同模态风格拉近，异模态风格推开，抑制模态特定风格对结构的污染

\[L_{\text{sc}} = -\frac{1}{(M \times B)^2} \sum_{p,q} [T_{pq} \log \sigma(z_{pq}) + (1-T_{pq}) \log \sigma(-z_{pq})]\]

\(L_{\text{sa}}\)（结构感知损失）：\(L_1\) 重建损失 + 频域 SSIM 损失（DCT 变换后比较幅度谱一致性）

\[L_{\text{sa}} = L_{\text{rec}} + L_{\text{freq}}, \quad L_{\text{freq}} = 1 - \text{SSIM}(|\mathcal{D}(\hat{X}_j)|, |\mathcal{D}(X_j)|)\]

\(L_{\text{ldm}}\)：标准去噪扩散损失

训练配置：PyTorch 2.1.0，Adam（lr=\(1 \times 10^{-4}\)），batch size 9，3×NVIDIA 4090，100 epochs。

实验关键数据¶

主实验¶

表1：BraTS2020 数据集（\(\bar{M}=3\)，三个可用模态生成第四个）

方法	T1 PSNR/SSIM	T2 PSNR/SSIM	T1CE PSNR/SSIM	FLAIR PSNR/SSIM
MM-GAN	27.35/92.32	27.85/93.18	28.65/94.19	27.95/92.95
SynDiff	28.95/93.34	29.36/93.95	30.65/94.86	29.62/93.23
MISA-LDM	29.01/93.86	29.66/94.12	30.68/95.62	29.66/93.28
MSG-LDM	30.26/94.37	30.33/94.38	31.35/96.29	29.68/93.62

表2：WMH 数据集

方法	FLAIR→T1 PSNR/SSIM	T1→FLAIR PSNR/SSIM
MISA-LDM	28.86/95.23	28.10/94.65
MSG-LDM	29.16/96.80	28.38/95.55

MSG-LDM 在所有设置下全面 SOTA。BraTS2020 上 PSNR 平均提升 ~1 dB，SSIM 提升 ~0.5%。

消融实验¶

配置	PSNR	SSIM%	Dice%
w/o 解耦+MMSF	27.92	92.41	85.03
w/o HFIB	28.17	92.68	85.41
w/o MSSE	29.04	93.28	86.55
w/o \(L_{\text{sa}}\)	27.36	91.82	84.27
w/o \(L_{\text{sc}}\)	27.11	91.54	83.89
完整模型	29.68	93.62	87.60

关键发现¶

风格一致性损失贡献最大：移除 \(L_{\text{sc}}\) 后 PSNR 下降 2.57 dB（29.68→27.11），说明风格干扰是 MRI 合成的核心挑战
结构感知损失同样关键：移除 \(L_{\text{sa}}\) 后 Dice 下降 3.33%，频域约束对保持结构一致性不可或缺
HFIB 提升细节保真：移除后 SSIM 下降 0.94%，高频注入对纹理/边缘质量重要
可用模态越多越好：随可用模态数从 1 增加到 3，合成质量持续改善
结构引导加速去噪：如 Fig.1 所示，有结构先验的去噪在中间步骤就已重建出清晰结构，无先验的仍模糊

亮点与洞察¶

风格-结构解耦的系统性设计：不仅在编码端解耦（独立编码器），还在损失端双重约束（\(L_{\text{sc}}\) 推开风格、\(L_{\text{sa}}\) 保持结构），形成闭环
HFIB 的简洁有效：可学习动态高斯滤波→残差提取高频→重新注入，无额外参数开销，即插即用
共享分割解码器巧妙利用：作为辅助任务强制结构特征模态不变，这是一种间接但有效的正则化
频域 SSIM 损失新颖：DCT 变换后比较幅度谱的 SSIM，同时约束全局布局和频率分布

局限性 / 可改进方向¶

仅验证脑 MRI：BraTS2020（肿瘤）和 WMH（白质高信号），其他解剖区域/疾病未验证
2D 处理：将 3D MRI 切片为 2D（192×192）处理，丢失了体积上下文
固定模态数：假设模态集合固定（T1/T2/T1CE/FLAIR），无法动态适应新模态
训练成本：每个模态单独的编码器/解码器，\(M\) 增大时参数线性增长
下游评估有限：Dice 仅评估分割，缺乏放射科医生主观评估和临床诊断任务验证

评分¶

新颖性: ⭐⭐⭐ 各组件（HFIB、MMSF、MSSE）单独看设计中规中矩，但系统集成和风格-结构解耦的完整性较好
实验充分度: ⭐⭐⭐⭐ 两个数据集、多种缺失模态场景、完整消融和可视化
写作质量: ⭐⭐⭐⭐ 方法描述清晰，消融分析系统
价值: ⭐⭐⭐ MRI 合成的增量改进，核心 insight（结构引导扩散）有一定通用性