3DSR: Bridging Diffusion Models and 3D Representations for 3D Consistent Super-Resolution¶
会议: ICCV 2025
arXiv: 2508.04090
代码: https://consistent3dsr.github.io/
领域: 3D重建 / 超分辨率 / 3DGS
关键词: 3D一致超分, 扩散模型, 3DGS, 多视角一致性, 去噪引导
一句话总结¶
提出3DSR——将扩散超分模型与3DGS表示交替迭代实现3D一致超分:每步去噪后将SR图像训练到3DGS中获得3D一致渲染→重编码回潜在空间引导下一步去噪,无需微调任何模型即显式保证跨视角一致性,在LLFF上PSNR提升1.16dB+FID降低50%(vs StableSR)。
背景与动机¶
3D场景重建受限于输入图像分辨率。直接用图像SR逐帧增强→每帧hallucinate的细节不一致→3DGS训练后产生模糊和几何伪影。视频SR隐式建模时序一致性但不保证3D一致性。需要一个框架显式利用3D表示来约束扩散SR的多视角一致性。
核心问题¶
如何在利用扩散模型生成高质量SR细节的同时,保证跨视角的3D结构一致性?
方法详解¶
整体框架¶
低分辨率多视角图像 → 预训练3DGS(LR) → 迭代去噪过程(4步StableSR-Turbo):每步(1)对每个视角:扩散去噪得clean latent x̂₀ → 解码得SR图像Hᵢ (2)用所有SR图像训练3DGS(5K iterations) → 渲染得3D一致图像Rᵢ (3)重编码Rᵢ为3D一致latent x̃₀ (4)结合x̃₀和当前xₜ做下一步去噪
关键设计¶
- 扩散-3D表示交替: 核心创新——在扩散去噪的每一步插入3DGS训练+渲染。扩散模型提供fine details,3DGS强制3D一致性。x̂₀(扩散预测,细节好但不一致) → 训练3DGS → Rᵢ(3D一致但可能丢失细节) → x̃₀(3D一致latent)引导下一步去噪。
- 子采样正则化: SR图像下采样到LR分辨率后与原始LR对齐(L_lr),防止SR细节偏离原始信息太远。总loss = L_hr(SR图像vs渲染) + λ·L_lr(LR原图vs下采样渲染)。
- 即插即用无微调: 扩散模型、VAE、3DGS全部frozen或仅用rendering loss训练。不需要微调video model或训练额外网络。可替换为任意SR扩散模型or 3D表示。
损失函数 / 训练策略¶
- L_all = L_hr(Hᵢ, Rᵢ) + λ·L_lr(Lᵢ, R_lr^i)
- L_α = (1-δ)·L1 + δ·L_DSSIM, λ=1, δ=0.2
- StableSR-Turbo(4步去噪), 每步5K 3DGS训练iterations
- Mip-Splatting作为3D表示, A6000 GPU
实验关键数据¶
LLFF (×8下采样 ×4上采样)¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | MEt3R(3D一致)↓ | FID↓ |
|---|---|---|---|---|---|
| SuperGaussian(VSR) | 23.05 | 0.725 | 0.296 | 0.541 | 51.2 |
| StableSR(ISR) | 22.75 | 0.717 | 0.219 | 0.531 | 41.1 |
| DiSR-NeRF | 22.50 | 0.697 | 0.310 | 0.518 | 54.1 |
| 3DSR(本文) | 24.21 | 0.754 | 0.181 | 0.516 | 20.7 |
MipNeRF360 (×8下采样 ×4上采样)¶
| 方法 | PSNR↑ | LPIPS↓ | FID↓ |
|---|---|---|---|
| SuperGaussian | 25.25 | 0.303 | 32.7 |
| StableSR | 24.31 | 0.326 | 44.2 |
| 3DSR | 26.10 | 0.222 | 22.4 |
亮点 / 我学到了什么¶
- 3D表示作为一致性约束: 将3DGS插入扩散去噪循环——简单但有效的3D一致性保证方式
- FID降低一半: 从41.1→20.7(LLFF),说明3D一致性约束大幅减少了hallucinated细节的分布偏移
- 无微调即插即用: 不修改任何预训练模型,纯利用3DGS的几何归纳偏置
- 与任意SR模型兼容: 框架对ISR/VSR方法都适用
局限性 / 可改进方向¶
- 每步去噪都需训练5K步3DGS——计算开销显著
- NIQE指标(无参考画质)不如StableSR——3D一致性约束可能牺牲部分感知质量
- 仅验证了×4上采样
与相关工作的对比¶
- vs StableSR(ISR): 逐帧SR无3D一致性→3DGS训练后blurry;3DSR显式保证一致性
- vs SuperGaussian(VSR): 依赖视频模型的时序一致性,不是真正的3D一致性
- vs DiSR-NeRF: 用SDS优化NeRF,产生黑色伪影;3DSR直接用3DGS渲染引导
与我的研究方向的关联¶
- 扩散-3D交替迭代的框架可迁移到3D编辑、3D补全等任务
- 3DGS在扩散管线中的即插即用角色值得探索
评分¶
- 新颖性: ⭐⭐⭐⭐ 扩散+3DGS交替迭代的idea直觉自然且有效
- 实验充分度: ⭐⭐⭐⭐ 两个数据集+多种SR基线+MEt3R 3D一致性指标
- 写作质量: ⭐⭐⭐⭐ 动机图(Fig.2)说服力强,方法描述清晰
- 对我的价值: ⭐⭐⭐⭐ 3D一致性+扩散SR的框架有参考价值