DIIP: Diffusion Image Prior¶

会议: ICCV 2025
arXiv: 2503.21410
代码: 无
领域: 图像生成 / 图像复原
关键词: diffusion model, Blind Image Restoration, Deep Image Prior, Early Stopping, Zero-shot

一句话总结¶

发现预训练扩散模型在重建退化图像时存在类似 Deep Image Prior 的隐式偏置——迭代优化过程中先生成干净图像再过拟合到退化输入——且比 DIP 适用更广泛的退化类型，据此提出完全盲（无需退化模型）的图像复原方法 DIIP。

研究背景与动机¶

图像复原（IR）的目标是从退化图像 \(y\) 恢复干净图像 \(x\)。现有方法的退化模型假设从强到弱分为三级：

非盲方法（DDRM, DDNM, DPS）：需完全已知退化模型（如已知模糊核）

部分盲方法（BlindDPS, BIRD）：需已知退化的参数形式

完全盲方法（DIP, DreamClean）：无需任何退化模型知识

Deep Image Prior (DIP) 是经典的完全盲方法，利用 CNN 的隐式先验，通过优化网络参数拟合退化图像，在中间迭代阶段产出干净图像。但 DIP 的核心局限在于：这种"先干净后过拟合"的性质仅对高频退化（如噪声）有效，对低频退化（如模糊）无效。

作者提出关键研究问题：预训练扩散模型是否也具有类似偏置？如果有，其适用范围比 DIP 更广吗？

方法详解¶

整体框架¶

DIIP 使用冻结的预训练扩散模型 \(g\)（DDIM 确定性映射），不优化模型参数，而是优化输入噪声 \(z\)：

\[z^* = \arg\min_z \|g(z) - y\|^2, \quad x^* = g(z^*)\]

通过梯度下降迭代优化 \(z\)，并在合适时机 early stop 来获取干净复原图像。

关键设计¶

扩散模型隐式先验的发现与验证:
- 在 FFHQ 图像上分别添加高斯噪声和高斯模糊，运行上述优化到收敛（1500 次迭代）
- 关键发现有两个：
  - (a) 两阶段行为：无论退化类型是噪声还是模糊，优化过程都存在两个阶段——(I) 中间阶段生成干净、逼真的图像；(II) 后期开始过拟合到退化输入。相比之下，DIP 在模糊退化时无法在中间阶段产出清晰图像
  - (b) 高频惰性：与 DIP 类似，扩散模型对高频伪影有很强的抵抗力，直到很晚才开始过拟合噪声
- 设计动机：这一发现将 DIP 的适用范围从"仅高频退化"扩展到"包括低频退化在内的广泛退化类型"
低频退化的停止准则（Laplacian 方差）:
- 监测重建图像的 Laplacian 方差（LV）作为清晰度指标
- 在 regime (I) 阶段，生成图像清晰，LV 较高
- 当 \(k > k_{min}\) 且 \(\sigma^2[k+1] < \sigma^2[k]\)，表明图像开始变模糊，触发停止
- 返回最后一次 LV 峰值对应的重建结果
- 设计动机：绝对清晰度难以衡量，但相对清晰度变化趋势可靠
高频退化的停止准则（归一化损失斜率）:
- 计算归一化斜率 \(\Delta_k = \frac{E(z^k;y) - E(z^{k-1};y)}{E(z^{k-1};y)}\)
- 实验发现 \(\Delta_k\) 的最小值恰好对应于 PSNR 的最大值
- 当 \(\Delta_k < \epsilon\)（默认 0.001）时停止
- 设计动机：损失曲线的拐点标志着从"学习干净信号"到"开始拟合噪声"的转折

损失函数 / 训练策略¶

优化使用 Adam 优化器，学习率 0.0015
超参数 \(k_{min} = 100\)，\(\epsilon = 0.001\)
采用 BIRD 提出的快速扩散反演方法加速 \(g(z)\) 的计算
预训练模型为 UNet 骨干的无条件扩散模型
无需训练数据集，纯 test-time 优化

实验关键数据¶

主实验¶

CelebA 结构化退化（去噪、超分辨率）:

方法	去噪 PSNR↑	去噪 SSIM↑	SR×4 PSNR↑	SR×8 PSNR↑
DIP	25.81	0.606	21.33	20.34
BIRD	27.92	0.821	25.26	22.63
DreamClean	27.05	0.771	23.44	21.33
DIIP	28.37	0.842	25.14	22.86

非结构化退化（完全盲场景）:

方法	JPEG PSNR↑	水滴去除 PSNR↑	非均匀变形 PSNR↑
DIP	20.43	20.37	18.83
DreamClean	23.92	22.94	22.16
DIIP	25.29	23.78	23.45

注：BIRD、BlindDPS 等部分盲方法无法应用于非结构化退化场景。

消融实验¶

\(k_{min}\) 的影响（PSNR dB）:

\(k_{min}\)	非均匀变形	水滴去除
50	22.18	22.48
100	23.45	23.78
150	23.52	23.82

\(\epsilon\) 的影响（PSNR dB）:

\(\epsilon\)	去噪	JPEG 去伪影
0.005	27.25	22.38
0.001	28.37	25.29
0.0005	28.14	25.02

与最优停止的差距：DIIP 仅落后约 0.3 dB（去噪：28.37 vs 28.63），说明自监督停止准则接近最优。

关键发现¶

DIIP 在所有完全盲复原任务上达到 SOTA，在部分任务上甚至击败需要退化模型的部分盲方法
运行时间 138 秒/图，内存 1.2 GB，与 DreamClean 相当
预训练扩散模型从未见过退化数据，但依然能先重建干净图像——这是一种纯粹的归纳偏置
两种停止准则分别适用于不同类型退化，无需事先知道退化类型，算法自动选择先触发的准则

亮点与洞察¶

核心发现极具价值：扩散模型的隐式先验比 DIP 更强更广，为全盲图像复原开辟了新方向
方法极简优雅：冻结模型 + 优化噪声 + early stop，无需任何额外训练或退化建模
两种自监督停止准则互补，无需知道退化类型
实验中 DreamClean 容易改变图像身份（如人脸特征），而 DIIP 更好地保持原始内容

局限与展望¶

计算开销较大（~138 秒/图），不适合实时应用
每张图像需独立优化，无法批量处理
停止准则对超参数（\(k_{min}\), \(\epsilon\)）有一定敏感性
仅在 256×256 分辨率上验证，高分辨率场景需要更高效的扩散反演方案
对于同时包含高频和低频退化的复合退化场景，两种停止准则的交互行为未充分分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 扩散模型隐式先验的发现极具洞察力，方法简洁新颖
实验充分度: ⭐⭐⭐⭐ — 覆盖多种退化类型，消融充分；但数据集规模偏小
写作质量: ⭐⭐⭐⭐⭐ — 动机清晰，发现与方法的逻辑链条非常自然
价值: ⭐⭐⭐⭐ — 为全盲图像复原提供新思路，但计算成本限制了实际部署