Asymmetric Mask Scheme for Self-supervised Real Image Denoising¶
会议: ECCV2024
arXiv: 2407.06514
代码: lll143653/amsnet
领域: image_restoration
关键词: self-supervised denoising, blind spot network, mask strategy, real image denoising, asymmetric scheme
一句话总结¶
提出非对称掩码方案 AMSNet,训练时用单掩码、推理时用多掩码互补,突破了 blind spot network 对网络感受野的结构限制,在真实图像自监督去噪任务上取得 SOTA。
背景与动机¶
自监督去噪方法因无需配对数据而备受关注,其中 Blind Spot Network (BSN) 是最典型的范式。BSN 的核心假设是噪声零均值且像素级独立,通过盲点卷积排除中心像素来避免恒等映射(噪声→噪声)。然而 BSN 带来了严格的网络设计限制:
- 感受野受限:盲点卷积后必须使用膨胀卷积等策略进一步限制感受野,否则中心像素的信息会通过邻域像素泄漏回输出,导致恒等映射
- 结构信息丢失:排除中心像素不可避免地损失结构信息
- 去噪器选择受限:高级去噪器(如 Restormer、NAFNet)无法直接应用于 BSN 框架
这些限制严重制约了 BSN 方法的性能上限。作者受 Masked AutoEncoders (MAE) 启发,思考能否用掩码操作替代盲点卷积来解决恒等映射问题,从而摆脱对网络结构的限制。
核心问题¶
如何在自监督去噪中既避免恒等映射,又不对去噪网络的感受野和结构施加限制,从而允许灵活选用高性能去噪器?
方法详解¶
训练阶段:单掩码方案 (Single Mask Scheme)¶
核心思路是在输入阶段直接掩盖原始像素,从根源上阻断其参与恢复过程:
- 对含噪图像 \(I_N\) 随机生成二值掩码矩阵 \(M\)(约 50% 像素被掩为零)
- 将掩码后的图像 \(M \odot I_N\) 送入去噪器 \(D_E\)
- 仅计算被掩盖位置(\(\tilde{M}\) 指示的区域)的恢复损失
掩码自监督损失:
关键点:被掩盖的像素完全从周围未掩盖像素重建,天然避免了恒等映射,因此不需要限制网络的感受野。
处理真实噪声的空间相关性¶
真实噪声通常不满足像素独立假设。借鉴 AP-BSN,引入像素下采样 (Pixel Downsampling, PD) 策略:以步长 \(s\) 对原图进行下采样得到 \(s^2\) 个子样本集 \(I_s\)。PD 打破了噪声的空间相关性,使子样本满足独立性假设。对每个子样本独立生成掩码并训练。
推理阶段:多掩码方案 (Multi Mask Scheme)¶
训练时单分支只恢复被掩盖的部分像素。为实现整幅图像去噪,设计了多分支掩码互补去噪块 (MMDB):
- 使用 \(k\) 个去噪分支(默认 \(k=2\)),每个分支使用同一去噪器 \(D_E\)
- 各分支的掩码互补且不重叠:\(\sum_{i=1}^{k} \tilde{M}_s^i = \mathbb{I}\)
- 各分支输出求和即得完整去噪结果:\(D_M(I_s) = \sum_{i=1}^{k} \tilde{M}_s^i \odot D_E(M_s^i \odot I_s, \theta)\)
- 最后通过逆像素下采样 \(P_s^{-1}\) 恢复原始分辨率
棋盘效应消除¶
PD 策略破坏了图像结构完整性,导致去噪结果出现棋盘格伪影。两阶段应对:
- 先验平滑损失 \(\mathcal{L}_p\):对基础模型 AMSNet-B 进行微调,总损失为 \(\mathcal{L}_t = \lambda \mathcal{L}_p(I_{DN}) + \|I_{DN} - I_N\|_1\),其中 \(\lambda=0.01\)
- 随机替换精炼策略 \(\mathcal{R}^3\):推理时进一步抑制棋盘效应
由此产生四个模型变体:AMSNet-B(基础)、AMSNet-P(+平滑损失微调)、AMSNet-B-E(+精炼)、AMSNet-P-E(+两者,最终版)。
实验关键数据¶
主实验(SIDD / DND / PolyU)¶
| 方法 | SIDD Val (PSNR/SSIM) | SIDD Bench | DND Bench |
|---|---|---|---|
| AP-BSN+\(\mathcal{R}^3\) | 36.74/0.850 | 36.91/0.931 | 38.09/0.937 |
| LG-BPN+\(\mathcal{R}^3\) | 37.31/0.886 | 37.28/0.936 | 38.43/0.942 |
| BNN-LAN | 37.39/0.883 | 37.41/0.934 | 38.18/0.939 |
| AMSNet-P-E | 37.93/0.895 | 37.87/0.941 | 38.70/0.947 |
在 PolyU 数据集上 AMSNet-P-E 达到 37.92 dB / 0.9645 SSIM,同样为最优。
消融实验关键发现¶
- 恒等映射验证:AP-BSN 使用无限制感受野的去噪器时 PSNR 暴跌至 20.91 dB(恒等映射),而 AMSNet 仍保持 37.11 dB,证明掩码策略有效避免恒等映射
- 去噪器通用性:Restormer (37.93) > DeamNet (37.80) > NAFNet (37.10) > UNet (36.94) ≈ DnCNN (36.93),验证了可自由选择去噪器
- 最优掩码比例:约 50%(对应 \(k=2\) 分支)时效果最佳
- 平滑损失微调:引入 \(\mathcal{L}_t\) 约提升 0.1 dB
亮点¶
- 思路巧妙:将 MAE 的掩码思想迁移到自监督去噪,用输入掩码替代盲点卷积,从根本上解除了去噪网络的结构限制
- 训练-推理非对称设计:训练用单掩码降低优化成本,推理用多掩码互补实现全图去噪,设计优雅
- 去噪器无关:框架可即插即用地接入 Restormer、NAFNet 等高级去噪器,扩展性强
- 消融充分:恒等映射验证实验非常直观地展示了 BSN 的局限和 AMSNet 的优势
局限性 / 可改进方向¶
- 推理开销翻倍:\(k=2\) 分支意味着推理时需前向传播两次,计算量是单次的 2 倍
- 棋盘效应仍需后处理:PD 策略引入的棋盘伪影需要额外的平滑损失微调和精炼策略来消除,增加了流程复杂度
- PD 步长选择:训练用 \(P_5\)、推理用 \(P_2\),这种不对称选择依赖经验调参
- 仅验证 sRGB 去噪:未在 RAW 域去噪或其他低级视觉任务上验证泛化性
- 掩码比例固定为 50%,未探索自适应掩码策略
与相关工作的对比¶
| 方面 | BSN 类方法 (AP-BSN, LG-BPN) | AMSNet |
|---|---|---|
| 避免恒等映射 | 盲点卷积 + 膨胀卷积限制感受野 | 输入掩码直接阻断 |
| 去噪器限制 | 严格受限,不能用标准卷积 | 无限制,可用任意去噪器 |
| 处理真实噪声 | PD + BSN | PD + Mask |
| 推理成本 | 单次前向 | \(k\) 次前向(默认 2 次) |
| SIDD Val PSNR | 36.74 / 37.31 | 37.93 |
与 Noise2Void、Self2Self 等早期方法相比,AMSNet 在真实噪声场景下的性能提升更为显著,主要得益于对高级去噪器的解锁。
启发与关联¶
- 掩码策略的成功表明 MAE 的思想在图像恢复领域有广泛适用性,可尝试推广到超分辨率、去模糊等任务
- 训练-推理非对称设计是一种通用范式:训练时简化问题(单掩码、部分像素),推理时互补组合获得完整结果
- 棋盘效应问题提示了 PD 策略的固有缺陷,未来可探索不依赖 PD 的空间相关噪声处理方式
评分¶
- 新颖性: 8/10 — MAE 掩码思想迁移至自监督去噪,解除 BSN 结构限制,思路清晰有效
- 实验充分度: 8/10 — 三个数据集 + 五种去噪器 + 详尽消融,恒等映射验证实验尤为出色
- 写作质量: 7/10 — 逻辑清晰但部分公式推导可更简洁
- 价值: 7/10 — 为自监督去噪提供了更灵活的框架,但推理开销翻倍是实际应用的障碍