Blind Noisy Image Deblurring Using Residual Guidance Strategy¶
会议: ICCV 2025
arXiv: 无(仅CVF Open Access)
CVF: 论文链接 | PDF
代码: 无
作者: Heyan Liu, Jianing Sun, Jun Liu (通讯), Xi-Le Zhao, Tingting Wu, Tieyong Zeng
单位: 东北师范大学、电子科技大学、南京邮电大学、北师港浸大
领域: 图像恢复
关键词: 盲去模糊、噪声鲁棒、残差引导、图像金字塔、模糊核估计
一句话总结¶
提出残差引导策略(RGS),在图像金字塔的粗到细估计过程中,利用相邻粗尺度的卷积残差经 guided filter 去噪后校正当前尺度的模糊图像,从而在高噪声(σ=0.1)下显著提升盲去模糊的核估计精度和恢复质量,无需训练即超越多种深度学习方法。
背景与动机¶
盲图像去模糊是一个经典的不适定逆问题:从单张模糊图像同时恢复清晰图像和模糊核。退化模型为 \(B = K \otimes L + N\),其中 \(K\) 是模糊核,\(L\) 是清晰图像,\(N\) 是噪声。
现实中长曝光不仅带来运动模糊,还会引入大量噪声。现有方法(无论传统还是深度学习)在无噪声或轻微噪声下表现尚可,但一旦噪声增大(如高斯噪声 σ≥0.05),核估计精度急剧下降,去模糊效果严重退化。核心矛盾在于:去模糊需要保留高频信息(边缘、纹理),而去噪需要抑制高频信息。如何在两者之间取得平衡是关键挑战。
作者通过实验观察到一个有趣现象:在粗到细的金字塔框架中,粗尺度的核估计更准确(因为下采样后噪声减弱、主要结构保留),但核偏粗缺乏细节;细尺度的核更精细,但噪声干扰更严重。这一观察启发了残差引导策略的提出。
核心问题¶
如何在盲去模糊的粗到细框架中,利用粗尺度更可靠的估计结果来引导细尺度的核估计,抑制噪声对核精度的破坏?
方法详解¶
整体框架¶
本文是一个不需要训练的传统优化方法,基于物理模型的交替迭代框架:
- 输入: 受模糊和噪声退化的图像 \(B\)
- 构建图像金字塔: 逐步下采样得到多尺度图像 \(B_1, B_2, \ldots, B_n\)(\(B_1\) 最精细,\(B_n\) 最粗糙)
- 从粗到细迭代: 从最粗尺度 \(B_n\) 开始,交替优化中间清晰图像 \(L\) 和模糊核 \(K\)
- 残差引导校正: 在每次跨尺度传递时,用 RGS 校正下一尺度的输入图像,抑制噪声影响
- 非盲恢复: 得到最终估计核 \(K_1\) 后,用非盲方法(Zhong et al.)做最终去模糊
关键设计¶
- 交替优化子问题:
- L 子问题(Eq.5): 给定核 \(K^t\),估计清晰图像 \(L\),使用 Liu et al. 的先验——\(\ell_0\) 范数选择主边缘 + 图像表面面积正则化,通过 half-quadratic splitting 求解
-
K 子问题(Eq.6): 给定 \(L^{t+1}\),估计核 \(K\),关键点是使用图像梯度而非图像本身来估计核(梯度域更稳定),用 \(\ell_2\) 正则化,通过 FFT 高效求解
-
残差引导策略(RGS): 这是本文的核心创新。在从 \(i+1\)(粗)尺度过渡到 \(i\)(细)尺度时:
- 计算残差:\(R_i = B_i - \text{Up}(L_{i+1} \otimes K_{i+1})\),即当前尺度模糊图像与上一尺度估计结果上采样的差值
- 残差中主要包含噪声和一些结构信息
- 对残差施加 guided filter,引导图为残差的高斯滤波结果,得到去噪后的残差 \(\tilde{R}_i = g(R_i)\)
- 校正当前尺度的输入:\(\tilde{B}_i = \text{Up}(L_{i+1} \otimes K_{i+1}) + \tilde{R}_i\)
-
用校正后的 \(\tilde{B}_i\) 替代原始 \(B_i\) 进行后续迭代交替优化
-
与朴素引导策略(NGS)的对比: 一种直觉做法是直接对上采样结果做 guided filter 后用作引导。但实验表明 NGS 不如 RGS,因为直接滤波模糊图像可能破坏重要图像细节,而 RGS 仅对残差滤波,保留了主要结构信息。
损失函数 / 训练策略¶
本方法无需训练。优化目标为: $\(\min_{K,L} \|K \otimes L - B\|_2^2 + \lambda P_l(L) + \mu P_k(K)\)$
其中 \(P_l(L) = \|\nabla L\|_0 + \gamma \sum_{i,j}\sqrt{1 + |\nabla_{i,j}L|^2}\) 是清晰图像先验;\(P_k(K) = \|K\|_2^2\) 是核正则项。
参数设置:\(\lambda = \gamma = 0.004\),最大外迭代次数 \(M=5\)。guided filter 的窗口大小 \(w\) 和平滑参数 \(s\) 也需要设定。
非盲恢复阶段使用 NLM-based 去噪增强,以在高噪声场景下获得更好效果。
实验关键数据¶
所有实验在高斯噪声 σ=0.1 条件下进行(这是一个很高的噪声级别)。
| 数据集 | 指标 | 本文 | 之前SOTA | 提升 |
|---|---|---|---|---|
| Lai et al. | PSNR/SSIM/LPIPS | 21.41/0.75/0.18 | 18.48/0.53/0.34 (Li) | +2.93dB |
| Zhang et al. (人脸) | PSNR/SSIM/LPIPS | 24.73/0.66/0.46 | 23.37/0.60/0.47 (Li) | +1.36dB |
| Levin et al. | PSNR/SSIM | 最高 | - | 显著领先 |
| RealBlur (真实) | PSNR/SSIM/LPIPS | 25.07/0.72/0.20 | 24.06/0.67/0.23 (Anger) | +1.01dB |
RGS 作为插件提升其他方法(Table 2, σ=0.1):
| 方法 | 原始 PSNR (Lai) | +RGS PSNR (Lai) | 提升 |
|---|---|---|---|
| Dong et al. | 17.88 | 19.45 | +1.57dB |
消融实验要点¶
- NGS vs RGS(Table 3): RGS 在 Lai 数据集上 PSNR 19.45 vs NGS 18.96(+0.49dB),核精度 MNC 0.66 vs 0.60。RGS 优势明确。
- 模型稳定性: 100 次独立实验,PSNR 方差仅 5.1×10⁻³,SSIM 方差 6.93×10⁻⁶,非常稳定。
- 混合噪声(高斯-泊松混合,σ=0.05, λ=20): RGS 对残差做去噪,天然适应不同噪声类型。
- RGS 的通用性: 可插入其他盲去模糊方法(如 Dong et al.),在四个数据集上均带来 PSNR 和 SSIM 提升。
亮点¶
- 极简但有效: 不需要训练,纯传统优化方法,但在高噪声下超越所有深度学习方法,说明物理模型+好的策略设计仍有很大空间
- 关键洞察精准: 粗尺度核估计更准确但偏粗、细尺度噪声放大核估计——这个观察直接催生了方法设计
- 残差而非图像: 对残差做滤波而非直接对图像滤波,避免破坏结构信息,这个技巧简单但关键
- 通用插件: RGS 可以作为即插即用模块提升任意基于粗到细框架的盲去模糊方法
- 鲁棒性强: 对未知噪声类型(高斯、泊松、混合)都有效,因为残差滤波是对噪声类型不敏感的
局限性 / 可改进方向¶
- 不处理动态场景模糊: 方法假设线性卷积退化模型(空间不变核),不适用于动态场景
- guided filter 是固定的: 作者也提到 guided filter 可以被更强的滤波器替代,这是一个提升空间
- 非盲恢复方法可替换: 当前用的非盲方法也可以用更先进的替代
- 计算效率未讨论: 传统迭代方法的速度通常不如端到端深度学习方法
- 仅验证了空间不变模糊核: 真实场景中模糊往往是空间变化的
与相关工作的对比¶
- vs 传统方法 (Dong et al., Zhong et al., Anger et al.): 这些方法在低噪声下有效,但高噪声时核估计崩溃。本文通过 RGS 显著提升鲁棒性。
- vs DIP/VDIP/WDIP (deep image prior 系列): 这类无监督方法利用网络结构先验做盲去模糊,但在高噪声下容易过拟合噪声。本文无此问题。
- vs 端到端方法 (DeblurGAN-v2, Zhang et al.): 这些方法依赖大量训练数据,对高噪场景泛化差,且无法输出核。本文可解释性更强。
- vs Lee et al. (ECCV 2024): 同样关注噪声鲁棒的盲去模糊,但本文性能更优。
启发与关联¶
- 与 VLM 引导修复 idea 的关联: 本文的残差引导策略可以与语义信息结合——VLM 可以识别哪些区域需要更谨慎的去噪(如人脸区域保留更多细节),参见 VLM引导修复 idea
- 可学习残差滤波: 将 guided filter 替换为轻量级可学习网络,自适应调节滤波强度,可能是一个有价值的改进方向
- 跨任务迁移: 残差引导的思想(粗尺度信息校正细尺度输入)可以推广到超分辨率、去雾等其他粗到细的图像恢复任务
- 扩散模型结合: 可以在扩散模型的去噪过程中引入类似的跨步长残差引导
评分¶
- 新颖性: ⭐⭐⭐⭐ 残差引导的思路简洁优雅,虽然技术本身不复杂但洞察力强
- 实验充分度: ⭐⭐⭐⭐ 四个数据集、多种噪声类型、消融完整、稳定性验证、插件实验,但缺少计算效率对比
- 写作质量: ⭐⭐⭐⭐ 动机清晰、逻辑连贯,图表说服力强
- 价值: ⭐⭐⭐⭐ 传统方法在高噪场景打败 DL 方法,且 RGS 可通用插入,实用价值高