跳转至

Blind Noisy Image Deblurring Using Residual Guidance Strategy

会议: ICCV 2025
arXiv: 无(仅CVF Open Access)
CVF: 论文链接 | PDF
代码: 无
作者: Heyan Liu, Jianing Sun, Jun Liu (通讯), Xi-Le Zhao, Tingting Wu, Tieyong Zeng
单位: 东北师范大学、电子科技大学、南京邮电大学、北师港浸大
领域: 图像恢复
关键词: 盲去模糊、噪声鲁棒、残差引导、图像金字塔、模糊核估计

一句话总结

提出残差引导策略(RGS),在图像金字塔的粗到细估计过程中,利用相邻粗尺度的卷积残差经 guided filter 去噪后校正当前尺度的模糊图像,从而在高噪声(σ=0.1)下显著提升盲去模糊的核估计精度和恢复质量,无需训练即超越多种深度学习方法。

背景与动机

盲图像去模糊是一个经典的不适定逆问题:从单张模糊图像同时恢复清晰图像和模糊核。退化模型为 \(B = K \otimes L + N\),其中 \(K\) 是模糊核,\(L\) 是清晰图像,\(N\) 是噪声。

现实中长曝光不仅带来运动模糊,还会引入大量噪声。现有方法(无论传统还是深度学习)在无噪声或轻微噪声下表现尚可,但一旦噪声增大(如高斯噪声 σ≥0.05),核估计精度急剧下降,去模糊效果严重退化。核心矛盾在于:去模糊需要保留高频信息(边缘、纹理),而去噪需要抑制高频信息。如何在两者之间取得平衡是关键挑战。

作者通过实验观察到一个有趣现象:在粗到细的金字塔框架中,粗尺度的核估计更准确(因为下采样后噪声减弱、主要结构保留),但核偏粗缺乏细节;细尺度的核更精细,但噪声干扰更严重。这一观察启发了残差引导策略的提出。

核心问题

如何在盲去模糊的粗到细框架中,利用粗尺度更可靠的估计结果来引导细尺度的核估计,抑制噪声对核精度的破坏?

方法详解

整体框架

本文是一个不需要训练的传统优化方法,基于物理模型的交替迭代框架:

  1. 输入: 受模糊和噪声退化的图像 \(B\)
  2. 构建图像金字塔: 逐步下采样得到多尺度图像 \(B_1, B_2, \ldots, B_n\)\(B_1\) 最精细,\(B_n\) 最粗糙)
  3. 从粗到细迭代: 从最粗尺度 \(B_n\) 开始,交替优化中间清晰图像 \(L\) 和模糊核 \(K\)
  4. 残差引导校正: 在每次跨尺度传递时,用 RGS 校正下一尺度的输入图像,抑制噪声影响
  5. 非盲恢复: 得到最终估计核 \(K_1\) 后,用非盲方法(Zhong et al.)做最终去模糊

关键设计

  1. 交替优化子问题:
  2. L 子问题(Eq.5): 给定核 \(K^t\),估计清晰图像 \(L\),使用 Liu et al. 的先验——\(\ell_0\) 范数选择主边缘 + 图像表面面积正则化,通过 half-quadratic splitting 求解
  3. K 子问题(Eq.6): 给定 \(L^{t+1}\),估计核 \(K\),关键点是使用图像梯度而非图像本身来估计核(梯度域更稳定),用 \(\ell_2\) 正则化,通过 FFT 高效求解

  4. 残差引导策略(RGS): 这是本文的核心创新。在从 \(i+1\)(粗)尺度过渡到 \(i\)(细)尺度时:

  5. 计算残差:\(R_i = B_i - \text{Up}(L_{i+1} \otimes K_{i+1})\),即当前尺度模糊图像与上一尺度估计结果上采样的差值
  6. 残差中主要包含噪声和一些结构信息
  7. 对残差施加 guided filter,引导图为残差的高斯滤波结果,得到去噪后的残差 \(\tilde{R}_i = g(R_i)\)
  8. 校正当前尺度的输入:\(\tilde{B}_i = \text{Up}(L_{i+1} \otimes K_{i+1}) + \tilde{R}_i\)
  9. 用校正后的 \(\tilde{B}_i\) 替代原始 \(B_i\) 进行后续迭代交替优化

  10. 与朴素引导策略(NGS)的对比: 一种直觉做法是直接对上采样结果做 guided filter 后用作引导。但实验表明 NGS 不如 RGS,因为直接滤波模糊图像可能破坏重要图像细节,而 RGS 仅对残差滤波,保留了主要结构信息。

损失函数 / 训练策略

本方法无需训练。优化目标为: $\(\min_{K,L} \|K \otimes L - B\|_2^2 + \lambda P_l(L) + \mu P_k(K)\)$

其中 \(P_l(L) = \|\nabla L\|_0 + \gamma \sum_{i,j}\sqrt{1 + |\nabla_{i,j}L|^2}\) 是清晰图像先验;\(P_k(K) = \|K\|_2^2\) 是核正则项。

参数设置:\(\lambda = \gamma = 0.004\),最大外迭代次数 \(M=5\)。guided filter 的窗口大小 \(w\) 和平滑参数 \(s\) 也需要设定。

非盲恢复阶段使用 NLM-based 去噪增强,以在高噪声场景下获得更好效果。

实验关键数据

所有实验在高斯噪声 σ=0.1 条件下进行(这是一个很高的噪声级别)。

数据集 指标 本文 之前SOTA 提升
Lai et al. PSNR/SSIM/LPIPS 21.41/0.75/0.18 18.48/0.53/0.34 (Li) +2.93dB
Zhang et al. (人脸) PSNR/SSIM/LPIPS 24.73/0.66/0.46 23.37/0.60/0.47 (Li) +1.36dB
Levin et al. PSNR/SSIM 最高 - 显著领先
RealBlur (真实) PSNR/SSIM/LPIPS 25.07/0.72/0.20 24.06/0.67/0.23 (Anger) +1.01dB

RGS 作为插件提升其他方法(Table 2, σ=0.1):

方法 原始 PSNR (Lai) +RGS PSNR (Lai) 提升
Dong et al. 17.88 19.45 +1.57dB

消融实验要点

  • NGS vs RGS(Table 3): RGS 在 Lai 数据集上 PSNR 19.45 vs NGS 18.96(+0.49dB),核精度 MNC 0.66 vs 0.60。RGS 优势明确。
  • 模型稳定性: 100 次独立实验,PSNR 方差仅 5.1×10⁻³,SSIM 方差 6.93×10⁻⁶,非常稳定。
  • 混合噪声(高斯-泊松混合,σ=0.05, λ=20): RGS 对残差做去噪,天然适应不同噪声类型。
  • RGS 的通用性: 可插入其他盲去模糊方法(如 Dong et al.),在四个数据集上均带来 PSNR 和 SSIM 提升。

亮点

  • 极简但有效: 不需要训练,纯传统优化方法,但在高噪声下超越所有深度学习方法,说明物理模型+好的策略设计仍有很大空间
  • 关键洞察精准: 粗尺度核估计更准确但偏粗、细尺度噪声放大核估计——这个观察直接催生了方法设计
  • 残差而非图像: 对残差做滤波而非直接对图像滤波,避免破坏结构信息,这个技巧简单但关键
  • 通用插件: RGS 可以作为即插即用模块提升任意基于粗到细框架的盲去模糊方法
  • 鲁棒性强: 对未知噪声类型(高斯、泊松、混合)都有效,因为残差滤波是对噪声类型不敏感的

局限性 / 可改进方向

  • 不处理动态场景模糊: 方法假设线性卷积退化模型(空间不变核),不适用于动态场景
  • guided filter 是固定的: 作者也提到 guided filter 可以被更强的滤波器替代,这是一个提升空间
  • 非盲恢复方法可替换: 当前用的非盲方法也可以用更先进的替代
  • 计算效率未讨论: 传统迭代方法的速度通常不如端到端深度学习方法
  • 仅验证了空间不变模糊核: 真实场景中模糊往往是空间变化的

与相关工作的对比

  • vs 传统方法 (Dong et al., Zhong et al., Anger et al.): 这些方法在低噪声下有效,但高噪声时核估计崩溃。本文通过 RGS 显著提升鲁棒性。
  • vs DIP/VDIP/WDIP (deep image prior 系列): 这类无监督方法利用网络结构先验做盲去模糊,但在高噪声下容易过拟合噪声。本文无此问题。
  • vs 端到端方法 (DeblurGAN-v2, Zhang et al.): 这些方法依赖大量训练数据,对高噪场景泛化差,且无法输出核。本文可解释性更强。
  • vs Lee et al. (ECCV 2024): 同样关注噪声鲁棒的盲去模糊,但本文性能更优。

启发与关联

  • 与 VLM 引导修复 idea 的关联: 本文的残差引导策略可以与语义信息结合——VLM 可以识别哪些区域需要更谨慎的去噪(如人脸区域保留更多细节),参见 VLM引导修复 idea
  • 可学习残差滤波: 将 guided filter 替换为轻量级可学习网络,自适应调节滤波强度,可能是一个有价值的改进方向
  • 跨任务迁移: 残差引导的思想(粗尺度信息校正细尺度输入)可以推广到超分辨率、去雾等其他粗到细的图像恢复任务
  • 扩散模型结合: 可以在扩散模型的去噪过程中引入类似的跨步长残差引导

评分

  • 新颖性: ⭐⭐⭐⭐ 残差引导的思路简洁优雅,虽然技术本身不复杂但洞察力强
  • 实验充分度: ⭐⭐⭐⭐ 四个数据集、多种噪声类型、消融完整、稳定性验证、插件实验,但缺少计算效率对比
  • 写作质量: ⭐⭐⭐⭐ 动机清晰、逻辑连贯,图表说服力强
  • 价值: ⭐⭐⭐⭐ 传统方法在高噪场景打败 DL 方法,且 RGS 可通用插入,实用价值高