Blind Image Deblurring with Noise-Robust Kernel Estimation¶

会议: ECCV 2024
arXiv: 无
代码: https://github.com/csleemooo/BD_noise_robust_kernel_estimation
领域: 图像复原 / 图像去模糊
关键词: 盲去模糊, 噪声鲁棒, 核估计, 深度图像先验, 逆问题

一句话总结¶

本文提出一种基于噪声鲁棒核估计函数和深度图像先验（DIP）的盲去模糊方法，通过设计能在强噪声下仍能准确估计模糊核的核估计函数，结合多核估计方案处理未知噪声水平，在模拟和真实图像上取得了优越的去模糊性能。

研究背景与动机¶

领域现状：盲图像去模糊（Blind Image Deblurring）是一个经典的逆问题，目标是从单张模糊图像中同时恢复清晰图像和模糊核。该问题在摄影、医学成像、遥感等领域有广泛应用。现有方法包括基于优化的传统方法（如交替最小化）和基于深度学习的端到端方法，在干净（无噪声）模糊图像上已取得不错的效果。

现有痛点：当模糊图像中存在强噪声时，现有的盲去模糊方法性能急剧下降。核心原因有两个：(1) 噪声会干扰模糊核的估计——传统方法依赖的图像梯度等先验在噪声下变得不可靠；(2) 深度学习方法容易过拟合噪声——网络可能学到的是噪声模式而非真正的清晰图像。更重要的是，实际场景中噪声水平通常是未知的，这进一步增加了问题的难度。

核心矛盾：盲去模糊本身就是一个严重病态（ill-posed）的逆问题——从一张观测中恢复两个未知量（清晰图像 + 模糊核）。当噪声被引入后，解空间进一步扩大，传统的图像先验和核先验都会受到噪声的扰动而失效。需要一种对噪声不敏感的核估计方法。

本文目标 (1) 如何在强噪声条件下仍能准确估计模糊核？(2) 如何处理噪声水平未知的实际场景？(3) 如何在去模糊的同时有效去噪？

切入角度：作者观察到，如果我们有一张"足够好"的清晰图像估计，那么可以设计一个对噪声鲁棒的核估计函数来提取模糊核。而深度图像先验（DIP）恰好可以在不需要训练数据的情况下生成自然图像的良好估计。因此，将 DIP 用于清晰图像估计，配合噪声鲁棒核估计，形成一个交替优化框架。

核心 idea：设计噪声鲁棒的核估计函数来准确恢复模糊核，结合深度图像先验来生成清晰图像，通过多核估计方案应对未知噪声水平。

方法详解¶

整体框架¶

方法的整体流程是一个交替优化（alternating optimization）过程，包含两个主要步骤的迭代进行：(1) 给定当前的清晰图像估计，使用噪声鲁棒核估计函数恢复模糊核；(2) 给定估计的模糊核，使用 DIP 网络优化清晰图像。输入是一张模糊且含噪的图像，输出是恢复的清晰图像和估计的模糊核。

关键设计¶

噪声鲁棒核估计函数（Noise-Robust Kernel Estimation Function）:
- 功能：在给定清晰图像估计的条件下，从含噪模糊图像中准确估计模糊核
- 核心思路：传统的核估计通过最小化 \(\|y - k * x\|_2^2\) 来求解核 \(k\)（其中 \(y\) 是模糊图像，\(x\) 是清晰图像估计，\(*\) 表示卷积）。但在噪声存在时，这个最小二乘问题会被噪声干扰。本文提出的核估计函数在频域中操作，利用信号与噪声在频域上的不同分布特性来抑制噪声影响。具体来说，在频域中对信号的高频分量（更容易被噪声污染）进行自适应加权，降低噪声分量的权重。同时引入核的稀疏性约束（因为自然模糊核通常是稀疏的），通过正则化项进一步提升估计的鲁棒性
- 设计动机：传统核估计在无噪声场景下表现良好，但核估计误差在噪声下会被放大——即使是小的噪声也会导致核估计产生明显偏差。通过在频域中进行自适应降噪处理，可以在不损失核细节的情况下显著提升噪声鲁棒性
深度图像先验（Deep Image Prior, DIP）:
- 功能：生成清晰图像的估计，提供自然图像先验
- 核心思路：DIP 利用了一个关键观察：卷积神经网络的结构本身对自然图像具有先验偏好——在用随机噪声作为输入训练网络拟合目标图像时，网络会先学到低频（自然结构），后学到高频（噪声）。因此，通过控制训练的迭代次数（early stopping），可以获得去噪后的清晰图像估计。具体地，DIP 网络 \(f_\theta\) 以固定随机向量 \(z\) 为输入，通过最小化 \(\|y - k * f_\theta(z)\|_2^2\) 来优化网络参数 \(\theta\)，其中 \(k\) 是当前估计的模糊核
- 设计动机：DIP 的优势在于完全无监督——不需要任何训练数据集，只需要单张测试图像即可工作。这使得方法可以应用于任何领域的图像，具有极强的通用性。同时，DIP 的正则化效果天然地抑制了噪声，与噪声鲁棒核估计形成互补
多核估计方案（Multiple Kernel Estimation Scheme）:
- 功能：处理噪声水平未知的实际场景
- 核心思路：由于噪声鲁棒核估计函数中的降噪参数与噪声水平相关，而实际中噪声水平未知，因此采用多核估计策略：并行使用多个不同降噪参数配置的核估计函数，每个对应不同的假设噪声水平。然后通过评估每个估计核的质量指标（如核的稀疏性、清晰图像重建质量等），自动选择最优的核估计结果。这种策略避免了需要显式估计噪声水平的步骤
- 设计动机：噪声水平估计本身就是一个困难问题，且估计误差会传递到核估计中。多核估计方案通过"多猜测一选择"的策略，绕过了噪声水平估计的需求，使方法更加实用

损失函数 / 训练策略¶

总体优化交替进行两个步骤：(1) 核估计步骤：固定 DIP 网络输出，通过噪声鲁棒核估计函数求解最优核 \(k = \arg\min_k \|Y - K \cdot X\|_F^2 + \lambda_k \|k\|_1\)（频域表示），其中 \(\lambda_k\) 控制稀疏性；(2) 图像估计步骤：固定核 \(k\)，优化 DIP 网络参数 \(\theta = \arg\min_\theta \|y - k * f_\theta(z)\|_2^2\)，使用 Adam 优化器并利用 early stopping 防止过拟合噪声。外层交替约 5-10 轮，内层 DIP 优化约 2000-5000 步。

实验关键数据¶

主实验¶

数据集	指标	本文	之前SOTA	提升
模拟数据 (无噪声)	PSNR↑	竞争力	SelfDeblur, MPRNet	与SOTA可比
模拟数据 (噪声 σ=2.55)	PSNR↑	优于	传统方法 + DL方法	显著超越
模拟数据 (噪声 σ=7.65)	PSNR↑	大幅优于	对比方法明显下降	差距随噪声增大而增大
AFHQ-dog (motion blur+noise)	视觉质量	优于	SelfDeblur	核估计更准确
AFHQ-cat (motion blur+noise)	视觉质量	优于	传统+DL方法	噪声伪影更少
真实世界模糊图像	视觉质量	优于	级联去噪+去模糊	避免了级联误差累积

消融实验¶

配置	关键指标	说明
标准核估计 (无噪声鲁棒)	PSNR 下降 2-5dB	验证噪声鲁棒核估计的必要性
DIP 替换为 TV 先验	PSNR 下降	DIP 的图像先验更强
单核估计 (固定噪声假设)	对不匹配噪声敏感	多核估计策略提升鲁棒性
多核估计方案	对噪声水平鲁棒	自动适应不同噪声水平
不同迭代次数	收敛稳定	5-10 轮交替已足够

关键发现¶

在强噪声场景下（σ > 5），传统盲去模糊方法的性能几乎完全崩溃，而本文方法仍能保持合理的恢复质量
噪声对核估计的干扰是性能下降的主要原因——使用噪声鲁棒核估计后，核的估计误差大幅降低
DIP 的 early stopping 时机对结果影响很大：过早停止导致欠恢复，过晚导致过拟合噪声
多核估计方案能可靠地选择最优核，自动选择的结果与使用真实噪声水平的结果接近
在真实世界图像上的定性结果表明方法具有实际应用价值

亮点与洞察¶

问题定位精准：准确识别了噪声对盲去模糊的核心挑战——核估计失败，而非图像重建失败
方法设计简洁有效：噪声鲁棒核估计 + DIP 的组合简单但效果显著，没有过度工程化
完全无监督：不需要任何训练数据，基于 DIP 的自监督范式在实际中非常灵活
多核估计的实用策略：巧妙规避了噪声水平估计这一前置困难问题

局限与展望¶

DIP 的优化过程较慢（每张图像需要数千步优化），限制了实时应用
方法假设模糊核是空间不变的（spatially uniform），对空间变化模糊的处理待扩展
多核估计方案需要运行多次优化过程，进一步增加了计算开销
DIP 的 early stopping 需要启发式确定，缺乏自动化的最优停止准则
仅在运动模糊上进行了实验，对散焦模糊、大气湍流模糊等其他类型的适用性未验证
与最新的基于扩散模型的图像复原方法（如 DiffPIR）缺乏对比

评分¶

新颖性: ⭐⭐⭐ 核心贡献在噪声鲁棒核估计函数设计，DIP 框架较为经典
实验充分度: ⭐⭐⭐ 模拟+真实场景均有测试，但数据集和对比方法可更丰富
写作质量: ⭐⭐⭐ 问题动机清晰，但方法细节（频域操作）需要读者有信号处理背景
价值: ⭐⭐⭐ 噪声下盲去模糊是实际需求，方法实用但推理速度限制了部署