Domain-Adaptive Video Deblurring via Test-Time Blurring¶

会议: ECCV 2024
arXiv: 2407.09059
代码: 有 (GitHub)
领域: 图像修复 / 视频去模糊
关键词: 视频去模糊, 域适应, 测试时微调, 扩散模型, 模糊条件生成

一句话总结¶

提出基于扩散模糊模型的测试时域适应方法，通过从模糊视频中检测相对清晰区域作为伪清晰图像，并生成域自适应的模糊条件来合成训练对，实现在未知域上对去模糊模型的微调，在 5 个真实数据集上最高提升 7.54dB。

研究背景与动机¶

视频去模糊旨在恢复因相机抖动或物体运动导致的模糊视频，但现有方法面临严重的域差距问题：

训练-测试分布不一致：现有去模糊模型大多在合成数据（如 GoPro）上训练，但真实场景中不同相机设置（快门速度、光圈、光源）会产生不同方向和强度的模糊模式。当测试视频的模糊模式与训练集不一致时，性能显著下降。

测试时无标签数据：推理阶段只有模糊输入，没有对应的清晰图像作为监督信号，无法直接微调模型。

现有域适应方法的不足： - 自监督方法（Chi et al., Nah et al.）使用重建/重模糊损失，但忽略了目标域的特定模糊信息 - Liu et al. 使用 GAN 监督模糊模型生成训练数据进行元学习，但未利用视频连续帧中包含的时序运动信息——连续帧之间的运动揭示了运动模糊轨迹，模糊程度隐含了曝光期间的模糊强度

核心洞察：模糊视频本身隐含了域特定的模糊线索——连续帧间的运动轨迹反映模糊方向，模糊区域的强度反映模糊幅度。可以利用这些线索为扩散模糊模型 ID-Blau 生成域自适应的模糊条件，从而在测试时生成域内分布一致的伪训练对。

方法详解¶

整体框架¶

提出的域适应方案包含三个核心步骤：(1) RSDM（相对清晰度检测模块）从模糊视频中提取相对清晰的 patch 作为伪清晰图像；(2) DBCGM（域自适应模糊条件生成模块）利用视频中的运动线索生成域特定的模糊条件；(3) 使用 ID-Blau 扩散模型根据域特定条件将伪清晰图像模糊化，生成的伪训练对用于微调去模糊模型。

关键设计¶

Relative Sharpness Detection Module (RSDM)：
- 功能：从模糊视频中找到相对清晰的 patch 作为伪清晰图像
- 核心思路：设计 Blur Magnitude Estimator (BME)，一个五阶段编码器-解码器网络，结合多尺度特征融合（MSFF）。在 GoPro 数据集上训练 BME，利用光流累积获得的运动轨迹图计算像素级模糊幅度真值： \(G = \frac{1}{\tau}\sqrt{u^2 + v^2}\) 其中 \(u, v\) 为水平和垂直运动轨迹，\(\tau\) 为归一化项。测试时用 BME 预测每帧的模糊幅度图 \(M_t^{(i)} = BME(V_t^{(i)})\)，通过自适应阈值 \(\eta^{(i)}\) 二值化后裁剪 \(256 \times 256\) 的清晰 patch。阈值设定保证提取前 \(r\%=20\%\) 最清晰的 patch
- 设计动机：即使是"模糊"视频，不同帧、不同区域的模糊程度也不均匀，总能找到相对清晰的区域作为伪真值
Domain-adaptive Blur Condition Generation Module (DBCGM)：
- 功能：从模糊视频的时序运动线索中估计域特定的模糊方向和幅度，生成 ID-Blau 所需的模糊条件
- 核心思路：包含 Blur Orientation Estimator (BOE) 和 BME 两部分。对于伪清晰 patch \(\tilde{S}_t^{(i)}\) 及其相邻帧（前后各2帧）的同位patch，通过光流估计运动轨迹： \(\tilde{\mathcal{F}}_t^{(i)} = \sum_{n=-2}^{1} f(\tilde{S}_{t+n}^{(i)}, \tilde{S}_{t+n+1}^{(i)})\) 归一化后得到域特定模糊方向 \(\tilde{O}_t^{(i)} = \frac{\tilde{\mathcal{F}}_t^{(i)}}{\sqrt{\tilde{u}^2 + \tilde{v}^2}}\)。模糊幅度通过 Magnitude Adaptation Process 调制：用相邻帧模糊幅度均值来缩放当前帧的归一化幅度： \(\tilde{M}_t^{(i)} = \text{Norm}(M_t^{(i)}) \cdot \text{Avg}(M_{t-2}^{(i)}, M_{t-1}^{(i)}, M_{t+1}^{(i)}, M_{t+2}^{(i)})\)
- 设计动机：随机生成的模糊条件不符合目标域的模糊分布，必须从测试视频本身提取域特定的模糊方向和强度线索，才能生成与目标域一致的训练数据
基于 ID-Blau 的域适应微调：
- 功能：使用域特定模糊条件驱动 ID-Blau 模糊伪清晰图像，生成伪训练对用于微调
- 核心思路：ID-Blau 是条件扩散模糊模型，接受清晰图像 \(S\) 和像素级模糊条件图 \(C = (x, y, z) \in \mathbb{R}^{H \times W \times 3}\)（水平/垂直模糊方向和幅度），生成模糊图像 \(B = \text{ID-Blau}(S, C)\)。将 DBCGM 生成的域特定方向和幅度组合为条件 \(\tilde{C}_t^{(i)}\)，对伪清晰 patch 进行模糊化：\(\tilde{B}_t^{(i)} = \text{ID-Blau}(\tilde{S}_t^{(i)}, \tilde{C}_t^{(i)})\)
- 设计动机：ID-Blau 提供了可控的模糊生成能力，结合域特定条件即可生成符合目标分布的训练数据

损失函数 / 训练策略¶

BME 训练：使用 L1 损失监督，\(\mathcal{L} = \mathcal{L}_1(M, G)\)，其中 \(M\) 为预测模糊幅度，\(G\) 为光流导出的真值
域适应微调：使用各去模糊模型原始损失函数，在伪训练对上微调 10 个 epoch
BME 优化器：Adam，初始学习率 \(1e^{-3}\)，余弦退火至 \(1e^{-4}\)，图像缩放至 \(320 \times 320\)，批大小 16，训练 50 epoch

实验关键数据¶

主实验¶

四个去模糊模型在五个真实数据集上的提升（Table 1）：

模型	BSD-1ms8ms	BSD-2ms16ms	BSD-3ms24ms	RealBlur	RBVD
ESTRNN Baseline	25.57	24.64	26.01	25.87	24.47
ESTRNN +Ours	29.44 (+3.87)	28.36 (+3.72)	28.32 (+2.31)	27.64 (+1.77)	26.83 (+2.36)
MMP-RNN Baseline	21.63	21.26	22.74	24.65	22.81
MMP-RNN +Ours	29.17 (+7.54)	26.95 (+5.69)	26.77 (+4.03)	27.69 (+3.04)	25.81 (+3.00)
DSTNet Baseline	25.42	23.50	24.68	26.57	23.15
DSTNet +Ours	28.69 (+3.27)	27.11 (+3.61)	26.69 (+2.01)	27.74 (+1.17)	25.66 (+2.51)
Shift-Net Baseline	25.00	23.75	24.98	26.01	23.98
Shift-Net +Ours	28.75 (+3.75)	26.31 (+2.56)	26.92 (+1.94)	27.71 (+1.70)	25.35 (+1.37)

平均提升：BSD-1ms8ms +4.61dB，BSD-2ms16ms +3.90dB，BSD-3ms24ms +2.57dB，RealBlur +1.92dB，RBVD +2.31dB。MMP-RNN 最高获得 +7.54dB 提升。

消融实验¶

RSDM 和 DBCGM 有效性消融（Table 2，ESTRNN on BSD-1ms8ms）：

配置	Pseudo-Sharp	Blur Condition	PSNR	GAIN
(a) Baseline	—	—	25.57	+0.00
(b) Random patch + Random blur	Random	Random	23.88	-1.69
(c) Random patch + Optical-Flow	Random	Optical-Flow	25.51	-0.06
(d) Random patch + DBCGM	Random	DBCGM	29.01	+3.44
(e) RSDM + Random blur	RSDM	Random	24.32	-1.25
(f) RSDM + Optical-Flow	RSDM	Optical-Flow	26.19	+0.62
(g) RSDM + DBCGM	RSDM	DBCGM	29.44	+3.87

与现有域适应方法对比（Table 3，ESTRNN）：

方法	BSD-1ms8ms	BSD-2ms16ms	BSD-3ms24ms	RealBlur	RBVD
Baseline	25.57	24.64	26.01	25.87	24.47
Liu et al. (meta-learning)	25.58	24.53	25.15	26.12	24.83
Ours	29.44	28.36	28.32	27.64	26.83

关键发现¶

DBCGM 是核心贡献：即使使用随机 patch（无 RSDM），DBCGM 仍能带来 +3.44dB 提升（配置 d），说明域特定模糊条件是关键
随机模糊条件不仅无效，反而有害：Random patch + Random blur 下降 1.69dB（配置 b），说明不符合目标域分布的训练数据会误导模型
RSDM 提供额外增益：在相同模糊条件下，使用 RSDM 比 Random patch 一致性更好（对比 b/e、c/f、d/g）
对现有域适应方法的显著优势：Liu et al. 的 meta-learning 方法在大多数数据集上几乎无提升甚至下降，本文方法在 BSD-1ms8ms 上优势达 +3.86dB
自适应阈值 \(r=20\%\) 是最优：更大比例引入更多模糊patch，降低伪训练对质量

亮点与洞察¶

逆向思维：不直接改进去模糊模型架构，而是通过"先模糊再去模糊"的策略在测试时适应目标域，是巧妙的域适应思路
域线索的充分利用：从模糊视频的连续帧中提取运动轨迹作为域特定模糊条件，充分利用了视频时序信息
通用性强：方法与去模糊模型无关，可作为即插即用的域适应方案应用于任意去模糊模型（实验验证了4个不同架构）
提升幅度惊人：在 MMP-RNN 上最高 +7.54dB，这在图像恢复领域是非常罕见的提升

局限与展望¶

需要在测试时对每个视频进行指定 epoch 的微调（10 epochs），增加了推理时间开销
伪清晰图像本身仍有残余模糊，作为"清晰"监督信号存在噪声
ID-Blau 模糊模型的训练也基于 GoPro，可能存在二次域偏差
未探索对图像去模糊（非视频）的扩展
自适应阈值需要对每个视频单独计算，增加了计算复杂度

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 从模糊视频中提取域特定模糊条件的思路非常新颖，"通过模糊来去模糊"的逆向思维令人印象深刻
实验充分度: ⭐⭐⭐⭐⭐ — 4个模型×5个数据集的全面验证，消融实验细致（7组配置），阈值敏感性分析完整
写作质量: ⭐⭐⭐⭐ — 方法描述清晰，图表丰富，但公式较多，部分符号可精简
价值: ⭐⭐⭐⭐⭐ — 实际意义重大，即插即用的域适应方案，+7.54dB的最大提升在图像恢复领域非常有说服力