跳转至

3DSR: Bridging Diffusion Models and 3D Representations for 3D Consistent Super-Resolution

会议: ICCV 2025
arXiv: 2508.04090
代码: https://consistent3dsr.github.io/
领域: 3D重建 / 超分辨率 / 3DGS
关键词: 3D一致超分, 扩散模型, 3DGS, 多视角一致性, 去噪引导

一句话总结

提出3DSR——将扩散超分模型与3DGS表示交替迭代实现3D一致超分:每步去噪后将SR图像训练到3DGS中获得3D一致渲染→重编码回潜在空间引导下一步去噪,无需微调任何模型即显式保证跨视角一致性,在LLFF上PSNR提升1.16dB+FID降低50%(vs StableSR)。

背景与动机

3D场景重建受限于输入图像分辨率。直接用图像SR逐帧增强→每帧hallucinate的细节不一致→3DGS训练后产生模糊和几何伪影。视频SR隐式建模时序一致性但不保证3D一致性。需要一个框架显式利用3D表示来约束扩散SR的多视角一致性。

核心问题

如何在利用扩散模型生成高质量SR细节的同时,保证跨视角的3D结构一致性?

方法详解

整体框架

低分辨率多视角图像 → 预训练3DGS(LR) → 迭代去噪过程(4步StableSR-Turbo):每步(1)对每个视角:扩散去噪得clean latent x̂₀ → 解码得SR图像Hᵢ (2)用所有SR图像训练3DGS(5K iterations) → 渲染得3D一致图像Rᵢ (3)重编码Rᵢ为3D一致latent x̃₀ (4)结合x̃₀和当前xₜ做下一步去噪

关键设计

  1. 扩散-3D表示交替: 核心创新——在扩散去噪的每一步插入3DGS训练+渲染。扩散模型提供fine details,3DGS强制3D一致性。x̂₀(扩散预测,细节好但不一致) → 训练3DGS → Rᵢ(3D一致但可能丢失细节) → x̃₀(3D一致latent)引导下一步去噪。
  2. 子采样正则化: SR图像下采样到LR分辨率后与原始LR对齐(L_lr),防止SR细节偏离原始信息太远。总loss = L_hr(SR图像vs渲染) + λ·L_lr(LR原图vs下采样渲染)。
  3. 即插即用无微调: 扩散模型、VAE、3DGS全部frozen或仅用rendering loss训练。不需要微调video model或训练额外网络。可替换为任意SR扩散模型or 3D表示。

损失函数 / 训练策略

  • L_all = L_hr(Hᵢ, Rᵢ) + λ·L_lr(Lᵢ, R_lr^i)
  • L_α = (1-δ)·L1 + δ·L_DSSIM, λ=1, δ=0.2
  • StableSR-Turbo(4步去噪), 每步5K 3DGS训练iterations
  • Mip-Splatting作为3D表示, A6000 GPU

实验关键数据

LLFF (×8下采样 ×4上采样)

方法 PSNR↑ SSIM↑ LPIPS↓ MEt3R(3D一致)↓ FID↓
SuperGaussian(VSR) 23.05 0.725 0.296 0.541 51.2
StableSR(ISR) 22.75 0.717 0.219 0.531 41.1
DiSR-NeRF 22.50 0.697 0.310 0.518 54.1
3DSR(本文) 24.21 0.754 0.181 0.516 20.7

MipNeRF360 (×8下采样 ×4上采样)

方法 PSNR↑ LPIPS↓ FID↓
SuperGaussian 25.25 0.303 32.7
StableSR 24.31 0.326 44.2
3DSR 26.10 0.222 22.4

亮点 / 我学到了什么

  • 3D表示作为一致性约束: 将3DGS插入扩散去噪循环——简单但有效的3D一致性保证方式
  • FID降低一半: 从41.1→20.7(LLFF),说明3D一致性约束大幅减少了hallucinated细节的分布偏移
  • 无微调即插即用: 不修改任何预训练模型,纯利用3DGS的几何归纳偏置
  • 与任意SR模型兼容: 框架对ISR/VSR方法都适用

局限性 / 可改进方向

  • 每步去噪都需训练5K步3DGS——计算开销显著
  • NIQE指标(无参考画质)不如StableSR——3D一致性约束可能牺牲部分感知质量
  • 仅验证了×4上采样

与相关工作的对比

  • vs StableSR(ISR): 逐帧SR无3D一致性→3DGS训练后blurry;3DSR显式保证一致性
  • vs SuperGaussian(VSR): 依赖视频模型的时序一致性,不是真正的3D一致性
  • vs DiSR-NeRF: 用SDS优化NeRF,产生黑色伪影;3DSR直接用3DGS渲染引导

与我的研究方向的关联

  • 扩散-3D交替迭代的框架可迁移到3D编辑、3D补全等任务
  • 3DGS在扩散管线中的即插即用角色值得探索

评分

  • 新颖性: ⭐⭐⭐⭐ 扩散+3DGS交替迭代的idea直觉自然且有效
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集+多种SR基线+MEt3R 3D一致性指标
  • 写作质量: ⭐⭐⭐⭐ 动机图(Fig.2)说服力强,方法描述清晰
  • 对我的价值: ⭐⭐⭐⭐ 3D一致性+扩散SR的框架有参考价值