DoF-Gaussian: Controllable Depth-of-Field for 3D Gaussian Splatting¶

会议: CVPR 2025
arXiv: 2503.00746
代码: https://dof-gaussian.github.io/
领域: 3D视觉 / 新视角合成
关键词: 3D高斯, 景深控制, 散焦去模糊, 透镜成像模型, 深度先验, 弥散圆

一句话总结¶

提出 DoF-Gaussian，为 3D 高斯表示引入基于几何光学的可学习透镜成像模型，通过逐场景深度先验调整和离焦-对焦自适应策略，实现从浅景深（散焦模糊）输入图像重建清晰 3D 场景，并支持可控景深渲染（重对焦、光圈调节、散焦形状变换等交互应用）。

研究背景与动机¶

领域现状：3DGS 及其变体在新视角合成上取得了巨大成功，但它们基于针孔成像假设，要求输入图像全部对焦清晰。然而真实世界照片常常包含浅景深效果（散景模糊），这在日常摄影中非常普遍。

现有痛点： - 3DGS 系列方法在处理散焦输入时性能显著下降，因为散景模糊破坏了几何精度。 - 现有去散焦方法（BAGS、Deblurring 3DGS）使用模糊估计网络但缺乏透镜物理模型，无法实现可控景深——不能重对焦或调整散景效果。 - 基于 NeRF 的方法（DoF-NeRF、LensNeRF）虽有透镜模型，但训练慢、渲染低效。 - 现有评估数据集仅评估去模糊能力，不评估重对焦和相机参数学习精度。

核心矛盾：散焦输入需要显式建模弥散圆（Circle of Confusion, CoC）来恢复清晰场景，但理想光学 CoC 与真实 DSLR 相机 CoC 之间存在固有差异，直接建模会引入系统误差。

本文目标 如何在 3DGS 框架中高效地从散焦输入恢复清晰场景，同时支持可控景深渲染？

方法详解¶

整体框架¶

DoF-Gaussian 在 Mip-Splatting 基础上构建，整体流程为：(1) 对浅景深输入图像运行 SfM 获取稀疏深度；(2) 用稀疏深度微调单目深度网络得到逐场景深度先验；(3) 3DGS 优化过程中引入可学习透镜参数（光圈 \(\mathcal{A}\)、对焦距离 \(\mathcal{F}\)），通过 CUDA 加速的透镜成像算法将清晰渲染结果模拟为散焦图像，与输入图像比较训练；(4) 推理时设光圈为 0 即可得到全清晰图像，或自由调节光圈和对焦距离实现各种景深效果。

关键设计¶

基于几何光学的透镜成像模型:
- 功能：将针孔模型替换为薄透镜模型，显式建模弥散圆
- 核心思路：空间点 \(P\) 距透镜距离为 \(d\)，其在像平面上的弥散圆直径为 \(r(d) = \mathcal{A}|1/\mathcal{F} - 1/d|\)。当 \(d = \mathcal{F}\)（在焦面上）时 \(r = 0\)，成像清晰。用可微分的 tanh 函数替代理想的阶跃 CoC 函数以保证梯度传播，并实现为 CUDA 并行的前向/后向传播算法。
- 设计动机：有了显式透镜模型，可以学习每张图像的真实光圈和对焦距离，进而精确建模散焦效果并支持推理时可控渲染。
逐场景深度先验调整:
- 功能：为散焦输入提供准确的场景几何指导
- 核心思路：散焦图像直接使用单目深度网络预测的深度不够准确。本文先用 COLMAP 的 SfM 得到稀疏但鲁棒的深度点，然后用 silog 损失 \(\mathcal{L}_{silog}\) 微调深度网络使其适配当前场景的尺度和布局，得到逐场景的深度先验 \(D_{pred}\)，用 L2 损失约束 3DGS 渲染深度。
- 设计动机：散焦区域的 SfM 点云仍然可靠（因为特征匹配在清晰区域进行），以此为锚点微调深度网络可以显著改善几何精度。
离焦-对焦自适应（Defocus-to-Focus Adaptation）:
- 功能：弥补理想 CoC 与真实 CoC 之间的差异
- 核心思路：训练分两阶段——前 \(t\) 步用全图均匀权重建模散焦效果以学习准确的透镜参数；之后用 sigmoid 权重函数 \(\Psi(x) = 1/(1+e^{-a(x-b)})\)（\(x = |1/\mathcal{F} - 1/d|\)）重新加权损失，让焦区（\(x\) 小的区域）获得更高权重，同时逐像素缩放光圈 \(\mathcal{A}' = \mathcal{A} \cdot \Psi\)。
- 设计动机：学到透镜参数后，我们知道哪些区域是清晰的，此时转向重点优化清晰区域可以补偿理想 CoC 无法精确匹配真实散焦的系统偏差。

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \Psi \odot (\mathcal{L}_{rec} + w_d \mathcal{L}_{depth}) + w_n \mathcal{L}_{normal}\)

\(\mathcal{L}_{rec} = (1-\lambda)\mathcal{L}_1(I, C^*) + \lambda \mathcal{L}_{D-SSIM}(I, C^*)\)：散焦渲染 vs 输入图像
\(\mathcal{L}_{depth} = \|D - D_{pred}\|_2\)：渲染深度 vs 逐场景深度先验（\(w_d = 0.01\)）
\(\mathcal{L}_{normal}\)：法线一致性损失（\(w_n = 0.05\)）
训练 30000 迭代，\(t = 10000\) 时启动 defocus-to-focus 自适应

实验关键数据¶

散焦去模糊（Deblur-NeRF 数据集）¶

方法	PSNR↑	SSIM↑	LPIPS↓	可控景深
Deblur-NeRF	23.47	0.720	0.121	✗
DoF-NeRF	22.70	0.682	0.185	✓
DP-NeRF	23.67	0.730	0.108	✗
BAGS	23.95	0.754	0.094	✗
Deblurring 3DGS	23.71	0.747	0.107	✗
DoF-Gaussian	23.97	0.756	0.093	✓

DoF-Gaussian 在去模糊指标上全面最优或次优，且是唯一基于 3DGS 的可控景深方法。

消融实验¶

配置	PSNR↑	SSIM↑	LPIPS↓
Baseline (无透镜)	21.31	0.636	0.239
+ 透镜模型	23.05	0.728	0.109
+ 透镜 + 自适应	23.59	0.742	0.104
+ 透镜 + 深度先验	23.42	0.738	0.098
Full model	23.97	0.756	0.093

三个组件逐步累加带来 +2.66 dB PSNR 提升，其中透镜模型贡献最大（+1.74 dB）。

关键发现¶

在合成数据集上，DoF-Gaussian 的透镜参数学习误差显著低于 DoF-NeRF（\(\delta_\mathcal{A}\): 0.068 vs 0.196, \(\delta_\mathcal{F}\): 0.079 vs 0.256），验证了透镜参数可被准确学习。
在全清晰输入测试中，DoF-Gaussian 性能与 Mip-Splatting 持平甚至略优（PSNR 27.81 vs 27.05），说明透镜模型在一般输入下不会引入退化。
逐场景深度先验相比不微调或稀疏深度监督方案分别高 0.44 和 0.53 dB PSNR。

亮点与洞察¶

物理驱动的优雅设计：用几何光学原理替代黑盒去模糊网络，一个透镜公式 \(r(d) = \mathcal{A}|1/\mathcal{F} - 1/d|\) 同时解决了去模糊和可控景深两个问题。
Defocus-to-Focus 自适应策略巧妙：承认理想 CoC 与真实 CoC 的差异而非强行拟合，转而利用学到的焦面信息重新分配优化权重，是一种实用的近似方案。
丰富的交互应用：重对焦、光圈调节、CoC 形状变换（圆→五边形/六边形）、动态景深视频等，推理时仅需调参即可，是 3DGS 走向电影级渲染的有意义探索。
保持了 3DGS 的实时渲染优势，相比 NeRF-based 方案大幅提升训练和渲染效率。

局限与展望¶

CUDA 实现的 CoC 模拟在大光圈时计算量显著增加（每个像素需遍历更大邻域）。
仅建模理想圆形 CoC + 后处理变形，未直接建模真实镜头的像差和非均匀散焦。
深度先验依赖 COLMAP 的 SfM 质量，对纹理稀疏或大面积散焦场景可能退化。
当前每张图像独立学习光圈和对焦距离，未建模相机参数在序列中的连续性。
未讨论与 HDR/运动模糊等其他非理想条件的联合建模。

评分¶

新颖性: ⭐⭐⭐⭐ 首次在3DGS中引入完整透镜模型实现可控景深
实验充分度: ⭐⭐⭐⭐ 真实+合成数据集，消融全面，交互应用展示丰富
写作质量: ⭐⭐⭐⭐ 物理推导清晰，图示与算法伪代码规范
价值: ⭐⭐⭐⭐ 填补了3DGS可控景深的空白，对摄影和电影渲染有直接应用