Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models (EDA)¶

会议: CVPR2026
arXiv: 2507.18534
代码: PerceptionComputingLab/EDA
领域: 医学图像 / 图像复原
关键词: 扩散模型, 任意噪声, 设计空间, 图像复原, MRI偏置场校正, CT金属伪影去除, 阴影去除

一句话总结¶

提出 EDA 框架，将 EDM 的设计空间从高斯噪声扩展到任意噪声模式，通过多元高斯分布参数化协方差矩阵实现灵活的噪声扩散，在 MRI 偏置场校正、CT 金属伪影去除和自然图像阴影去除三个任务上仅用 5 步采样即达到或超越 100 步 EDM 方法和专用方法。

研究背景与动机¶

EDM 局限于高斯噪声：EDM 统一了大多数扩散模型的设计空间，但其前向过程仅支持逐像素独立的高斯噪声（协方差为 \(\sigma^2(t)\mathbf{I}\)），无法涵盖 Flow Matching 等支持任意噪声扩散的新方法。
强制注入高斯噪声损害图像复原：在复原任务中，EDM 方法需要在退化图像上额外叠加高斯噪声才能启动逆过程，这破坏了退化图像中的任务特定信息。
复原距离被人为拉长：高斯噪声的注入使复原起点偏离退化图像分布，增加了复原距离和任务复杂度，导致需要更多采样步数。
SDE 框架优于 ODE：虽然 Flow Matching 提供了灵活的 ODE 扩散框架打破了高斯噪声限制，但 SDE 方法在结果多样性和质量上表现更优。
缺乏统一 SDE 设计空间：目前没有一个既支持灵活噪声模式又保留 SDE 优势的统一设计空间，阻碍了扩散模型的理论发展。
直接从退化图像启动的需求：理想情况下，可以定制噪声模式使逆过程直接从已知退化图像启动，缩短复原距离、降低复杂度。

方法详解¶

整体框架¶

EDA（Elucidating the Design space of Arbitrary-noise diffusion models）通过多元高斯分布刻画扩散过程，将 EDM 中的对角协方差 \(\sigma^2(t)\mathbf{I}\) 推广为由任意基函数集合定义的协方差矩阵 \(\boldsymbol{\Sigma}_{x_0} = H_{x_0}H_{x_0}^\top\)，从而支持任意噪声模式的扩散和去除。

关键设计¶

广义前向过程：EDA 的扩散噪声定义为

\[N = \sum_{m=1}^{M} \frac{\eta + \epsilon_m}{\eta + 1} h_{m, x_0}\]

其中 \(H_{x_0} = [h_{1,x_0}, \ldots, h_{M,x_0}]\) 是调节噪声模式的基函数集合，\(\epsilon_m \sim \mathcal{N}(0,1)\) 为独立高斯变量，\(\eta \geq 0\) 控制噪声随机性（\(\eta=0\) 最大随机性，\(\eta \to \infty\) 趋向确定性）。

多 Wiener 过程 SDE：前向过程由多个独立 Wiener 过程驱动：

\[\mathrm{d}\boldsymbol{x} = [f(t)\boldsymbol{x} + \phi_{x_0}(t)]\mathrm{d}t + g(t)\sum_{m=1}^{M} h_{m,x_0} \mathrm{d}\omega_t^{(m)}\]

关键理论结果： - Proposition 1：EDA 支持任意噪声的扩散和去除，通过三种配置覆盖所有场景——统一基集（最优情况）、样本依赖基函数（通用情况）、非高斯噪声离散采样 - Proposition 2：从简单高斯噪声推广到复杂任意模式不引入额外计算开销——PFODE 求解后额外项可解析化简消除，最终确定性采样公式与 EDM 完全一致 - Proposition 3：EDM 是 EDA 的特殊情况（\(\eta=0\)，基集取像素级单位矩阵）

损失函数¶

采用与 EDM 相同的去噪器训练目标：

\[\mathcal{L} = \mathbb{E}_{x_0 \sim P_{\text{data}}} \mathbb{E}_{x \sim P(x_t | y)} \| D_\theta(x; \sigma) - x_0 \|^2\]

去噪器结构保持 EDM 的 skip-connection 形式 \(D_\theta(x; \sigma) = c_{\text{skip}}(\sigma)x + c_{\text{out}}(\sigma)F_\theta(c_{\text{in}}(\sigma)x; c_{\text{noise}}(\sigma))\)，网络 \(F_\theta\) 预测扩散噪声。采样使用 Euler 一阶方法的确定性采样。

实验¶

实验设置¶

框架：PyTorch，单卡 NVIDIA RTX 3090
参数：\(s(t)=1\)，\(\sigma = \sqrt{1-\bar{\alpha_t}}\)，训练总步数 \(T=100\)
三个任务：MRI 偏置场校正（HCP 数据集，2206/1000 训练/测试切片）、CT 金属伪影去除（DeepLesion，1000/200 训练/测试图像）、自然图像阴影去除（ISTD，1330/540 训练/测试图像）

MRI 偏置场校正¶

方法	SSIM ↑	PSNR ↑	COCO ↑	CV(WM) ↓
N4	0.95	25.62	0.95	7.95
ABCNet	0.98	29.58	0.97	7.69
Refusion (100步)	0.98	34.67	0.98	7.72
EDA (5步)	0.99	38.02	0.99	7.40

阴影去除 (ISTD)¶

方法	ALL PSNR ↑	ALL SSIM ↑	NS PSNR ↑	NS RMSE ↓
ShadowFormer	31.81	0.967	33.89	3.90
Refusion	27.23	0.882	28.64	6.99
EDA	32.01	0.968	34.31	3.77

消融与关键发现¶

采样步数效率：EDA 仅用 5 步采样即达到或超越 Refusion 100 步的效果，速度加速约 53 倍（BFC 任务 0.182 vs 9.665 sec/slice）
ODE vs SDE：MeanFlow（ODE）在所有三个复原任务上显著落后，因为 ODE 产生平均化解而非高保真复原——BFC 中 CV(GM) 最高（15.49），MAR 中伪影区域模糊，SR 中 ALL RMSE 高达 9.77
仅图像域 vs 双域：在 CT MAR 任务中，EDA 仅使用图像域就超越了部分双域方法（LI、CNNMAR、DSCMAR 等），但与 SOTA 双域方法（InDuDoNet+、DICDNet）尚存差距
非阴影区域保真度：在阴影去除中 EDA 的非阴影区域 PSNR 达到 34.31 dB，RMSE 仅 3.77，优于所有竞争方法，说明框架能精确界定阴影边界

亮点¶

理论贡献扎实：严格证明了任意噪声扩散不增加采样计算量，且 EDM 是 EDA 的特殊情况
从退化图像直接启动逆过程，避免高斯噪声注入带来的信息损失和距离增加
5 步采样即可达到 SOTA，比 100 步 Refusion 快 53 倍，具有临床应用潜力
统一了 SDE 框架下的噪声灵活性和结构参数灵活性

局限性¶

SDE 框架在随机性与适用范围之间存在固有权衡：Case 1（最大随机性）仅适用于噪声可分解为固定基集的情况，Cases 2-3（通用但随机性较低）更接近确定性方法
CT MAR 任务中仅用图像域信息，与 SOTA 双域方法仍有差距
仅在特定医学和自然图像复原任务上验证，缺乏对其他退化类型（如超分辨、去模糊）的实验
基集 \(H_{x_0}\) 的选择依赖任务先验知识，缺少自动化基集学习机制

评分¶

新颖性: ⭐⭐⭐⭐ — 从多元高斯角度统一任意噪声扩散的 SDE 设计空间，理论贡献有价值
实验充分度: ⭐⭐⭐⭐ — 三个不同噪声类型的复原任务，医学+自然图像覆盖，消融充分
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，图示直观，但部分符号稍密集
价值: ⭐⭐⭐⭐ — 为扩散模型复原任务提供了更高效的统一框架，53 倍加速具有实际意义