Blind2Sound: Self-Supervised Image Denoising without Residual Noise¶

会议: ICCV2025
arXiv: 2303.05183
作者: Zejin Wang, Jiazheng Liu, Hao Zhai, Hua Han（中国科学院自动化研究所）代码: 论文补充材料中提供
领域: image_restoration
关键词: 自监督去噪, Poisson-Gaussian噪声, 盲去噪, 残余噪声消除, 噪声感知

一句话总结¶

提出 Blind2Sound 框架，通过自适应重可见损失（adaptive re-visible loss）感知噪声水平并实现个性化去噪，配合 Cramer Gaussian 损失提升噪声参数估计精度，在自监督盲去噪中消除残余噪声，性能超越同期所有自监督方法甚至部分有监督基线。

研究背景与动机¶

问题定义¶

实际成像传感器中的噪声通常服从 Poisson-Gaussian 混合模型：\(\mathbf{y} = \alpha P + N\)，其中 \(P \sim \text{Poisson}(\mathbf{x}/\alpha)\) 为信号相关的泊松噪声，\(N \sim \mathcal{N}(0, \sigma^2)\) 为信号无关的高斯噪声。自监督盲去噪需要仅从单张噪声图像学习去噪，不依赖配对干净数据。

现有方法的局限¶

伪监督对方法（如 Noise2Noise 变体）：从单幅噪声图像构造训练对会二次腐蚀信号，降低性能

盲点方法（如 N2V, BSN 系列）：输入遮蔽导致信息损失，产生严重伪影

Blind2Unblind：通过重可见（re-visible）过渡实现无损去噪，但 MSE 目标函数无法感知噪声水平，导致像素级贪心拟合产生明显残余噪声

FBI-Denoiser：高斯损失缺乏精细约束，噪声估计精度不足，且后处理步骤会放大之前的去噪误差

核心动机¶

MSE 作为目标函数无法针对动态噪声水平调整去噪强度。需要设计一种自适应损失，在保持无损框架兼容性的同时，根据感知到的噪声水平进行个性化去噪，彻底消除残余噪声。

方法详解¶

整体架构¶

Blind2Sound 包含两个模块：

去噪网络 \(f_\omega(\cdot)\)：基于改进的 U-Net，输出遮蔽分支和可见分支的去噪结果（均值 \(\mu_m, \mu_v\) 和协方差 \(\Sigma_m, \Sigma_v\)）
噪声估计器 \(g_\theta(\cdot)\)：预测 Poisson-Gaussian 噪声参数 \((\alpha, \sigma_1, \sigma_2)\)

训练时两模块联合优化；推理时去除噪声估计器和遮蔽分支，去噪器直接从原始噪声图像生成结果。

自适应重可见损失（Adaptive Re-Visible Loss）¶

核心思路是将遮蔽分支和可见分支建模为两个独立的高斯生成过程：

遮蔽分支：\(\mathbf{z}_1 \sim \mathcal{N}(\mathbf{z}_1 | \mu_m, \Sigma_m)\)，从遮蔽噪声体 \(\Omega\mathbf{y}\) 生成潜在干净图像
可见分支：\(\mathbf{z}_2 \sim \mathcal{N}(\mathbf{z}_2 | \mu_v, \Sigma_v)\)，从原始噪声图像 \(\mathbf{y}\) 生成，梯度禁用（不参与反向传播）

通过边际似然将噪声模型显式纳入：

\[p(\mathbf{y}) = \int p(\mathbf{y}|\mathbf{x}) p(\mathbf{x}|\mathbf{y}, \Omega\mathbf{y}) d\mathbf{x}\]

最终最小化负对数似然得到自适应重可见损失：

\[\mathcal{L}_{arv} = \frac{1}{2}[(\mathbf{y} - \mu_y)^T \Sigma_y^{-1} (\mathbf{y} - \mu_y)] + \frac{1}{2}\log|\Sigma_y| + \text{const}\]

其中 \(\mu_y = \frac{\mu_m + \lambda \mu_v}{1+\lambda}\)，\(\lambda\) 为从 3 逐步增长到 11 的可见因子。

关键设计：

两分支建模为 i.i.d.，解耦遮蔽和可见分支的相关性，避免遮蔽结果抑制可见去噪
对中间介质 \(\mu_m\) 的梯度分析表明需禁用 \(\text{diag}(\alpha \mu_y)\) 的梯度以稳定训练
收敛时最优估计 \(\tilde{\mathbf{x}} = \frac{\mu_m + \lambda \mu_v}{1+\lambda}\)，满足 \(\mu_m \leq \tilde{\mathbf{x}} \leq \mu_v\)
无需 Laine19 的后处理 MAP，因为损失本身已包含来自 \(\mathbf{y}\) 的信息

Cramer 高斯损失¶

针对原始高斯损失仅在全局图像上估计噪声、忽略局部噪声知识的缺陷，引入细粒度约束：

单通道图像（如灰度图）：利用子块约束，从四个角裁剪四个重叠子块（原图 3/4 大小），子块和全局的 GAT 变换后噪声方差均应近似单位方差：

\[\mathcal{L}_{est} = \sum_{s=1}^{4} \|\eta(G_{g_\theta}(\mathbf{y}_s)) - 1\|_2^2 + \|\eta(G_{g_\theta}(\mathbf{y})) - 1\|_2^2\]

多通道图像（如 sRGB）：引入跨通道噪声水平一致性约束，解决通道间估计误差互相抵消的问题：

\[\mathcal{L}_{est} = \sum_{j \neq k}^{c} \|\eta(G_{g_\theta}(\mathbf{y}_j)) - 1\|_2^2 + \|\eta(G_{g_\theta}(\mathbf{y}_j)) - \eta(G_{g_\theta}(\mathbf{y}_k))\|_2^2\]

Cramer 高斯损失仅作为正则项（权重 0.01），因为去噪后图像的实际噪声水平可能与原始输入不同。

总损失¶

\[\mathcal{L} = \mathcal{L}_{arv} + 0.01 \cdot \mathcal{L}_{est}\]

实验关键数据¶

噪声估计精度¶

在 BSD68（灰度）和 CBSD68（sRGB）上，Cramer 高斯损失相比 FBI-D： - 灰度图上消除了 FBI-D 的严重高斯参数估计误差 - sRGB 图上跨通道约束使得预测更接近真实值

合成灰度去噪（PSNR/SSIM）¶

噪声	方法	BSD68	Set12	Urban100
PG1	Blind2Unblind	30.61/0.869	31.45/0.880	30.70/0.900
PG1	Blind2Sound	30.83/0.875	31.68/0.886	31.14/0.908
PG3	Blind2Unblind	27.02/0.757	27.65/0.796	26.54/0.805
PG3	Blind2Sound	27.17/0.766	27.96/0.805	26.96/0.819

相比 Blind2Unblind 最大增益 0.44 dB，最小增益 0.15 dB
在 Set12 和 Urban100 上超越有监督基线 N2C 和 N2N，最大增益 0.4 dB

合成 sRGB 去噪¶

噪声	方法	KODAK	SET14	BSD300
PG1	Blind2Unblind	33.88/0.915	32.47/0.886	32.53/0.913
PG1	Blind2Sound	34.23/0.920	32.75/0.896	33.00/0.921

真实世界去噪¶

方法	SIDD Benchmark (RAW)	SIDD Validation (RAW)	FMD Confocal
N2C (有监督)	50.61/0.991	51.19/0.991	38.40/0.966
Blind2Unblind	50.79/0.991	51.36/0.992	38.44/0.964
Blind2Sound	50.92/0.991	51.50/0.992	38.46/0.965

SIDD RAW 上超越所有自监督方法和有监督基线
比 FBI-D 在 RAW 空间增益近 0.3 dB

消融实验要点¶

实验	结论
粒度大小	细粒度子块约束提升粗粒度估计精度，但子块太小导致噪声上下文不足
Cramer 损失权重	0.01 最优，0（无正则）和 100（过强正则）均劣
训练方案	联合训练 > 固定预训练估计器 ≈ 固定真实噪声（低噪时差异大）
噪声模型	增强模型 \(\mathcal{M}_E\) 在高噪声下优势明显
分支独立性	IID（独立）远优于 non-IID（非独立），验证解耦设计的重要性
可见因子	\(\lambda_f = 11\) 最优，非单调递增关系

亮点与洞察¶

噪声感知 + 无损去噪的统一：将噪声水平估计嵌入重可见损失，使去噪强度自适应调整——这是消除残余噪声的关键
推理零开销：噪声估计器和遮蔽分支仅在训练中使用，推理时与 Blind2Unblind 完全相同，不增加计算量
贝叶斯视角的重新建模：将 Blind2Unblind 的 MSE 损失提升为混合高斯边际似然的负对数似然，理论上更优
跨通道/子块细粒度约束：Cramer 高斯损失通过多尺度噪声一致性缩小解空间，解决了 FBI-D 估计不准的问题
灰度图上超越有监督：在 Set12、Urban100 上超越 N2C/N2N，说明自监督方法在噪声感知下的潜力

局限与展望¶

sRGB 空间增益有限：高噪声下跨通道去噪更困难，增益较灰度图小；跨通道建模可进一步加强
噪声模型假设：依赖 Poisson-Gaussian 模型，对更复杂的真实噪声（如空间相关噪声）可能需要扩展
可见因子调参：\(\lambda\) 的初始值和最终值需手动设定，自适应调度可能更优
单一网络架构：仅使用改进 U-Net，引入更强的 backbone（如 Transformer）可能进一步提升
缺少视频去噪：框架针对静态图像，时序信息未利用

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评