跳转至

BlurDM: A Blur Diffusion Model for Image Deblurring

会议: NeurIPS 2025
arXiv: 2512.03979
代码: https://jin-ting-he.github.io/BlurDM/
领域: 图像恢复 / 扩散模型
关键词: image deblurring, blur diffusion, dual diffusion, motion blur, prior generation

一句话总结

提出 BlurDM,将运动模糊的物理形成过程(连续曝光导致渐进模糊累积)集成到扩散模型——双扩散前向(同时加噪声+模糊)+ 双去噪去模糊反向,作为隐空间先验生成器一致性增强 4 种去模糊方法在 4 个数据集上的效果,GoPro 平均 +0.31 dB,RealBlur-J 平均 +0.78 dB,仅增加 ~4 GFLOPs 和 ~9ms。

研究背景与动机

  1. 领域现状:深度学习去模糊方法(CNN/Transformer)受回归损失限制产生过于平滑的结果。扩散模型生成丰富细节但其标准噪声扩散过程与运动模糊的物理过程不匹配。
  2. 现有痛点:运动模糊源于连续曝光的结构化方向性累积——\(B = \frac{1}{\alpha_T}\int_0^{\alpha_T} H(\tau)d\tau\),而非标准扩散的各向同性高斯噪声扰动。直接用 DDPM 做去模糊先验仅提升 +0.13 dB,几乎无效。
  3. 核心矛盾:标准扩散过程(加高斯噪声)与模糊形成过程(加方向性模糊)之间的失配——噪声是随机的,模糊是结构化的。
  4. 本文要解决什么:设计一个物理上合理的扩散过程,使其前向过程模仿模糊形成,反向过程自然执行去模糊。
  5. 切入角度:将模糊公式分解为累积形式——\(I_t = \frac{\alpha_{t-1}}{\alpha_t}I_{t-1} + \frac{1}{\alpha_t}e_t + \beta_t\epsilon_t\),前两项是渐进模糊,最后一项是噪声——自然形成双扩散过程。
  6. 核心idea一句话:让扩散模型的前向过程同时加噪声和加模糊,反向过程同时去噪和去模糊,在隐空间中作为通用先验增强任意去模糊网络。

方法详解

整体框架

三阶段训练流程:(1) 预训练 Sharp Encoder + Prior Fusion Module + 去模糊网络——用 GT 清晰图像提供"上界"先验;(2) 训练 Blur Encoder + BlurDM——在隐空间中学习从模糊表示恢复清晰先验;(3) 联合优化——将 BlurDM 生成的先验通过 PFM 注入去模糊网络做端到端微调。

关键设计

  1. 双扩散前向过程:
  2. 做什么:同时向图像添加高斯噪声和模糊残差
  3. 核心公式:\(I_t = \frac{\alpha_{t-1}}{\alpha_t}I_{t-1} + \frac{1}{\alpha_t}e_t + \beta_t\epsilon_t\)
  4. 其中 \(e_t = \int_{\alpha_{t-1}}^{\alpha_t} H(\tau)d\tau\) 是时间段 \([\alpha_{t-1}, \alpha_t]\) 内累积的模糊残差
  5. 最终状态:\(q(I_T|I_0, e_{1:T}) = \mathcal{N}(I_T; \frac{\alpha_0}{\alpha_T}I_0 + \frac{1}{\alpha_T}\sum e_t, \bar{\beta}_T^2\mathbf{I})\)
  6. 物理意义:模拟相机快门从打开到关闭的连续曝光过程

  7. 双去噪去模糊反向过程:

  8. 做什么:学习两个估计器——模糊残差估计器 \(e^\theta\) 和噪声估计器 \(\epsilon^\theta\),同时执行去模糊和去噪
  9. 反向步骤:\(I_{t-1} = \frac{\alpha_t}{\alpha_{t-1}}I_t - \frac{1}{\alpha_{t-1}}e^\theta(I_t,t,B) - (\frac{\alpha_t\bar{\beta}_t}{\alpha_{t-1}} - \bar{\beta}_{t-1})\epsilon^\theta(I_t,t,B)\)
  10. 条件依赖:以模糊图像 \(B\) 为条件指导去模糊方向

  11. Latent BlurDM 架构:

  12. 做什么:在隐空间中运行 BlurDM,作为灵活的先验生成器
  13. Stage 1:预训练 Sharp Encoder 提取 GT 清晰先验 \(Z^S\),PFM 用仿射参数调制解码器特征:\(F_i' = Z^{S,\alpha_i} \times F_i + Z^{S,\beta_i}\)
  14. Stage 2:BlurDM 在隐空间中从 \(Z^B\)(模糊隐码+噪声)恢复 \(Z^S\)(清晰先验),损失 \(\mathcal{L}_{prior} = \|Z_0^B - Z^S\|_1\)
  15. Stage 3:联合优化 BlurDM+PFM+去模糊网络
  16. 设计动机:三阶段确保 BlurDM 学到有意义的先验(仅 Stage 3 联合训练效果差)

计算开销

BlurDM 仅增加 ~4.16 GFLOPs(<8% 开销)、~3.33M 参数、~9ms 推理时间。T=5 steps 是最优迭代数。

实验关键数据

主实验

BlurDM 作为即插即用模块增强 4 种去模糊方法在 4 个数据集上的 PSNR 提升:

数据集 MIMO-UNet Stripformer FFTformer LoFormer 平均
GoPro +0.49 +0.44 +0.13 +0.16 +0.31
HIDE +0.73 +0.33 +0.14 +0.09 +0.32
RealBlur-J +0.54 +1.05 +0.30 +1.24 +0.78
RealBlur-R +0.60 +1.16 +0.44 +0.56 +0.69

消融实验

配置 GoPro PSNR↑
基线(无先验) 31.78
+ DDPM 先验 31.91 (+0.13)
+ RDDM 残差扩散 32.03 (+0.25)
+ BlurDM 32.28 (+0.50)

三阶段训练必要性: | 配置 | PSNR | |------|------| | 仅 Stage 3 | 31.80 | | Stage 1+2 | 32.01 | | Stage 1+3 | 31.95 | | Stage 1+2+3 | 32.28 | | Oracle (GT 先验) | 32.69 (上界) |

关键发现

  • 标准 DDPM 先验几乎无效(仅 +0.13 dB),验证了噪声扩散与模糊物理的失配
  • BlurDM 比 DDPM 好 +0.37 dB,比 RDDM(残差扩散)好 +0.25 dB——因为显式建模模糊残差比隐式残差更有效
  • 真实模糊数据集获益更大:RealBlur-J 平均 +0.78 dB vs GoPro +0.31 dB——因为真实模糊更需要物理先验
  • T=5 是最优迭代数,T≥6 收益递减
  • 三阶段训练缺一不可——Stage 2 的先验预训练和 Stage 3 的联合微调都是必要的

亮点与洞察

  • 模糊物理→扩散过程的自然映射:连续曝光→逐步加模糊 ≈ 扩散前向过程。这种从物理过程推导数学形式的方法论值得借鉴。
  • 双估计器设计:同时估计模糊残差和噪声,分离结构化退化和随机退化,比单一估计器更精确。
  • 模型无关的先验生成器:不替换现有去模糊方法,而是作为通用先验增强——4 种不同架构(CNN/Transformer)全部受益。
  • 三阶段训练的必要性:直接联合训练效果差(31.80 vs 32.28),先分别学好先验再联合是关键。

局限性 / 可改进方向

  • 专为运动模糊设计——散焦模糊是深度相关的非时间累积过程,不适用
  • 模糊累积模型是近似的,对非标准运动模糊(如物体旋转、非刚体运动)可能不准确
  • 扩散模型的随机性可能影响内容保真度
  • 未与最新的 flow-matching based 方法比较

相关工作与启发

  • vs 标准扩散去模糊(DvSR, DiffIR): 它们用标准噪声扩散,未利用模糊物理。BlurDM 通过物理建模获得更好的先验。
  • vs RDDM(残差扩散): RDDM 隐式建模残差,BlurDM 显式建模模糊累积,效果更好(+0.25 dB)。
  • 作为通用框架的启示:类似思路可应用于其他物理退化过程(如压缩伪影、降雨退化)的扩散建模。

评分

  • 新颖性: ⭐⭐⭐⭐ 将模糊物理集成到扩散过程是优雅的创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 方法×4 数据集+详细消融+三阶段分析
  • 写作质量: ⭐⭐⭐⭐ 物理动机清晰,推导完整
  • 价值: ⭐⭐⭐⭐ 即插即用的通用去模糊增强工具