SelfHVD: Self-Supervised Handheld Video Deblurring¶

会议: CVPR 2026
arXiv: 2508.08605
代码: https://cshonglei.github.io/SelfHVD
领域: 图像恢复
关键词: 视频去模糊, 自监督学习, 手持设备, 光学防抖, 自增强训练

一句话总结¶

SelfHVD 利用手持视频中自然存在的清晰帧作为监督信号，通过自增强视频去模糊（SEVD）构建高质量训练对和自约束空间一致性维护（SCSCM）防止位移偏移，实现了无需配对数据的手持视频去模糊。

研究背景与动机¶

领域现状：学习式视频去模糊方法在网络设计上取得了很大进展，但其预训练模型通常只对与训练样本类似的模糊数据有效。
现有痛点：手持视频的模糊不仅受相机抖动影响，还受OIS校正影响，其模糊分布与现有训练数据集（如GoPro、BSD）显著不同，导致现有模型表现不佳。
核心矛盾：采集配对手持视频去模糊数据集成本高昂且过程复杂，但直接使用合成模糊数据又存在域差距。
本文目标：利用手持视频中自然存在的清晰帧，以自监督方式学习去模糊模型，避免对配对数据的需求。
切入角度：当拍摄设备运动轨迹简单（如直线）且速度缓慢时，OIS可以正常工作，产生清晰帧。这些清晰帧可为相邻模糊帧提供去模糊线索和监督。
核心idea：清晰帧→对齐监督→SEVD自增强超越清晰帧上限→SCSCM防止空间漂移。

方法详解¶

整体框架¶

给定手持模糊视频，首先通过拉普拉斯方差+Otsu阈值选择清晰帧，将其对齐后作为去模糊模型的监督信号。然后通过SEVD构建更高质量的训练对来提升模型，通过SCSCM防止输入输出之间的空间位移。

关键设计¶

清晰帧选择与对齐:
- 功能：从手持视频中自动识别清晰帧并与模糊帧对齐
- 核心思路：用图像拉普拉斯的方差 \(v_l(\mathbf{I})\) 衡量清晰度，通过Otsu方法自动确定阈值。将视频分段（每段20帧），确保清晰帧均匀分布。使用SEA-RAFT光流模型对齐清晰帧与模糊帧，同时设计不确定性掩码 \(\mathbf{M}_{uncer}\) 和遮挡掩码 \(\mathbf{M}_{occ}\) 排除错误对齐和遮挡区域。
- 设计动机：清晰帧是手持视频的自然产物，选择准确率在GoProShake上达96.77%，HVD上达91.88%。
自增强视频去模糊（SEVD）:
- 功能：利用模型自身的去模糊能力构建更高质量的训练数据
- 核心思路：（1）随机清晰线索移除（RSCR）：随机将输入视频中的清晰帧替换为相邻模糊帧，得到更少线索的视频 \(\tilde{\mathbf{B}}\)；（2）监督信息选择（SIS）：在对齐的清晰帧 \(\mathbf{S}_{j \to i}\) 和原始视频的去模糊结果 \(\mathcal{D}(\mathbf{B})_k\) 中选择更好的作为 \(\tilde{\mathbf{B}}\) 的监督。当对齐清晰帧未过度失真且更清晰时用清晰帧，否则用去模糊结果（stop gradient）。
- 设计动机：直接以清晰帧为监督的上限就是清晰帧本身；SEVD使模型能超越输入中最清晰帧的质量，且能处理物体运动模糊。
自约束空间一致性维护（SCSCM）:
- 功能：防止训练过程中输入输出之间的空间位移
- 核心思路：基于信息瓶颈理论的观察——训练早期模型能保持空间一致性，后期才出现位移。用历史模型（第 \(e\) 次迭代的参数 \(\Theta_{\mathcal{D}_e}\)）的输出作为辅助监督 \(\mathcal{L}_{scscm} = \|\tilde{\mathbf{R}}_i - sg(\mathbf{R}_k^e)\|_1\)，约束当前输出与历史结果的空间一致性。
- 设计动机：光流对齐不可能完美，微小的对齐误差会随训练积累导致空间位移。利用早期模型天然保持空间一致性的特性作为正则化。

损失函数 / 训练策略¶

总损失 = 重建损失 \(\mathcal{L}_{rec}\)（使用掩码的L1） + SEVD损失 \(\mathcal{L}_{sevd}\)（条件选择的L1） + SCSCM损失 \(\mathcal{L}_{scscm}\)（历史模型约束的L1）。

实验关键数据¶

主实验¶

数据集	指标	SelfHVD	Ren et al.	DaDeblur	提升
GoProShake	PSNR	最优	次优	-	显著提升
HVD (真实)	视觉质量	最优	-	次优	明显更清晰

消融实验¶

配置	关键指标	说明
Full SelfHVD	最优	完整模型
仅清晰帧监督	基础水平	上限受限于清晰帧质量
+SEVD	显著提升	自增强突破上限
+SCSCM	进一步提升	防止空间漂移
不确定性+遮挡掩码	优于无掩码	排除错误对齐区域

关键发现¶

SEVD能让模型超越输入视频中最清晰帧的质量，是最关键的贡献。
SCSCM在训练后期尤为重要，没有它模型会逐渐出现空间漂移。
该方法对物体运动模糊也有一定的修复能力，因为SEVD利用了跨帧的清晰信息。

亮点与洞察¶

自监督的闭环设计非常巧妙：清晰帧→模型→更好的监督→更好的模型。
信息瓶颈理论的实用化：利用训练早期空间一致性好的观察设计SCSCM，理论指导实践。
方法对去模糊网络架构是通用的，可适配多种backbone。

局限与展望¶

依赖视频中存在足够的清晰帧，对全程严重模糊的视频不适用。
光流模型的准确性仍是瓶颈，复杂运动场景的对齐可能不准确。
未来可探索与基于扩散模型的去模糊方法结合。

评分¶

新颖性: ⭐⭐⭐⭐⭐ SEVD自增强训练和SCSCM空间一致性维护都是创新贡献
实验充分度: ⭐⭐⭐⭐ 合成+真实数据集验证，消融完整
写作质量: ⭐⭐⭐⭐ 方法动机清晰，逻辑链条完整
价值: ⭐⭐⭐⭐ 解决了手持视频去模糊的实际痛点