Dynamic Gaussian Splatting from Defocused and Motion-blurred Monocular Videos¶
会议: NeurIPS 2025
arXiv: 2510.10691
代码: hhhddddddd/dydeblur
领域: 3d_vision
关键词: 3D Gaussian Splatting, 动态场景重建, 散焦模糊, 运动模糊, 新视角合成
一句话总结¶
提出统一框架,通过可学习模糊核卷积联合建模散焦模糊和运动模糊,结合动态高斯致密化策略和未见视角约束,从模糊单目视频中实现高质量动态 3DGS 新视角合成。
背景与动机¶
从单目视频重建动态场景并合成新视角是 3D 视觉的重要问题。现有方法存在核心瓶颈:
- 模糊类型割裂:散焦模糊(defocus)和运动模糊(motion blur)的成因完全不同——前者源于景深限制,后者源于曝光时间内的相对运动。现有方法只能处理其中一种
- 模糊核估计困难:虽然两种模糊都可建模为核卷积,但从动态场景中准确估计逐像素模糊核极其困难
- 动态高斯不完整:基于追踪点初始化的动态高斯在遮挡区域存在缺失
核心问题¶
如何设计统一框架同时处理散焦模糊和运动模糊的单目视频,实现高保真清晰新视角合成?
方法详解¶
动态高斯表示与致密化¶
采用 Shape-of-Motion 框架分别建模静态和动态高斯。动态高斯通过 \(\mathrm{SE}(3)\) 运动基的线性组合表示运动:
变换后的动态高斯位置和旋转:
动态高斯致密化 (DGD):仅用规范帧可见的追踪点初始化动态高斯,然后从所有观测帧的深度图重投影补充动态区域,通过前景重映射将观测帧高斯变换回规范帧:
在训练 \(N_d = 2500\) 次迭代后执行一次致密化。
统一模糊合成¶
无论散焦还是运动模糊,都统一建模为逐像素核卷积:
模糊预测网络 (BP-Net):4 层 CNN,输入包括相机嵌入 \(e(i)\)、场景特征 \(f_{\text{scene}}\)(由渲染图像、深度、运动掩码编码)和像素坐标位置编码 \(p(x)\),同时预测模糊核 \(k_x\) 和模糊强度 \(m_x\):
输出模糊图像通过锐利图像和模糊图像混合:
模糊感知稀疏约束:防止对轻微模糊区域过度模糊化。定义核中心权重目标:
模糊强度高 → 中心权重目标低 → 允许分散核;模糊强度低 → 中心权重目标高 → 强制集中核。
未见视角约束¶
通过几何和外观信息从训练视角合成周围的未见视角,减轻单目视频的过拟合:
生成平行未见视角(相邻训练视角间插值)和垂直未见视角(沿相机轨迹法向偏移),每 \(N_u = 5\) 次迭代引入一次。
总损失¶
重建损失 \(\mathcal{L}_{\text{rec}} = (1-\beta)\mathcal{L}_1(\hat{B}, B) + \beta \mathcal{L}_{\text{ssim}}(\hat{B}, B)\),\(\beta = 0.2\)。
实验关键数据¶
D2RF 散焦模糊 + DyBluRF 运动模糊¶
| 方法 | 散焦 PSNR↑ | 散焦 SSIM↑ | 散焦 LPIPS↓ | 运动 PSNR↑ | 运动 SSIM↑ | 运动 LPIPS↓ | 训练时间 |
|---|---|---|---|---|---|---|---|
| D3DGS | 22.54 | 0.715 | 0.215 | 21.54 | 0.675 | 0.287 | 10 min |
| SoM | 28.32 | 0.784 | 0.164 | 26.21 | 0.823 | 0.109 | 10 min |
| D2RF | 27.04 | 0.808 | 0.128 | 23.67 | 0.745 | 0.120 | 48 hrs |
| DyBluRF | 26.24 | 0.788 | 0.159 | 24.53 | 0.864 | 0.079 | 48 hrs |
| De4DGS | 28.49 | 0.791 | 0.154 | 26.62 | 0.871 | 0.059 | 20 hrs |
| Ours | 29.39 | 0.859 | 0.078 | 27.01 | 0.876 | 0.056 | 1 hr |
散焦数据集上 PSNR 比 De4DGS 高 0.9 dB,LPIPS 降低 49%;训练仅需 1 小时 vs 20 小时。
消融实验¶
| 配置 | 散焦 PSNR | 运动 PSNR |
|---|---|---|
| w/o 稀疏约束 | 29.03 | 26.63 |
| w/o Shortcut | 29.12 | 26.74 |
| w/o DGD | 29.19 | 26.53 |
| w/o 未见视角 | 29.09 | 26.66 |
| 完整方法 | 29.39 | 27.01 |
模糊核大小 \(K=9\) 为最优平衡点,\(K>9\) 提升不明显。
亮点¶
- 首个统一框架:同时处理散焦和运动模糊的动态场景重建
- 模糊强度-核稀疏性耦合:通过 \(m_x\) 自适应约束核分布,物理上合理
- 极高效率:1 小时训练 + 65 FPS 渲染,比 NeRF 方案快 48×
- 未见视角合成策略有效缓解单目视频过拟合
局限性 / 可改进方向¶
- 依赖 2D 先验(深度估计、分割),先验误差会传播
- 大幅非刚性运动模糊场景仍会失败
- 需要逐场景优化,无法泛化到新场景
- 模糊核大小固定为 \(9 \times 9\),可能无法覆盖大范围模糊
与相关工作的对比¶
- vs De4DGS / DyBluRF:这些方法通过曝光时间内多帧加权模拟运动模糊,无法处理散焦;本文用核卷积统一两者
- vs D2RF:D2RF 用分层 DoF volume rendering 处理散焦,但无法处理运动模糊且极慢(48h)
- vs Shape-of-Motion:SoM 是清晰视频的 SOTA,本文在其基础上增加模糊建模,从模糊输入恢复清晰场景
启发与关联¶
模糊核预测与强度预测的解耦设计值得借鉴——显式建模"一个像素有多模糊"和"怎么模糊"两个维度。未见视角合成约束是解决单目重建过拟合的通用策略。
评分¶
- ⭐ 新颖性: 8/10 — 统一散焦+运动模糊的动态 3DGS 为首创,模糊感知稀疏约束设计巧妙
- ⭐ 实验充分度: 8/10 — 两个数据集覆盖两种模糊类型,消融完整
- ⭐ 写作质量: 7/10 — 结构清晰但部分细节(未见视角生成)描述较简略
- ⭐ 价值: 8/10 — 实用价值高,统一框架+高效率,对模糊视频重建有直接推动