跳转至

Bridging Diffusion Models and 3D Representations: A 3D Consistent Super-Resolution Framework

会议: ICCV 2025
arXiv: 2508.04090
代码: 项目页面
领域: 3D Vision
关键词: 3D超分辨率, 扩散模型, 3D高斯溅射, 多视图一致性, 新视图合成

一句话总结

提出3DSR框架,将扩散模型的2D超分辨率与3D高斯溅射(3DGS)表示相结合,在每个扩散去噪步骤中通过3DGS渲染来强制多视图3D一致性,实现高保真且空间一致的3D场景超分辨率。

研究背景与动机

3D表示学习(如NeRF、3DGS)在新视图合成方面取得了显著进展,但受限于输入相机视图的空间分辨率,合成图像常缺乏精细细节。现有超分辨率方案存在三大问题:

图像超分辨率(ISR)方法:独立处理每个视图,引入跨视图不一致性,导致3D重建出现伪影

视频超分辨率(VSR)方法:通过隐式时空聚合实现一定一致性,但无法保证3D视图一致性且细节保留较差

扩散模型超分辨率:能生成高质量细节但常产生幻觉内容,跨视图应用时纹理不一致

核心洞察:扩散模型擅长生成高频细节,但缺乏3D几何感知;3DGS擅长强制多视图一致性。将两者结合可兼得双方优势。

方法详解

整体框架

3DSR在扩散模型的去噪过程中,每个时间步执行以下循环:(a) 扩散SR模型预测干净潜变量 → (b) 解码为高分辨率图像 → (c) 用高分辨率图像训练3DGS并渲染一致视图 → (d) 将3D一致渲染图编码回潜空间 → (e) 用3D一致潜变量执行去噪步骤。编码器、解码器和扩散模型均保持冻结,仅优化3D表示。

关键设计

  1. 多视图一致噪声采样(Multiview Consistent Noise Sampling): 给定低分辨率(LR)输入图像集 \(\{L^i\}\) 和相机位姿 \(\{P^i\}\),先用LR图像预训练3DGS模型。在扩散采样初始步骤,随机初始化噪声潜变量 \(x_t^i\),SR模型估计干净潜变量 \(\hat{x}_0^i\),解码为中间高分辨率图像 \(H^i\)。关键步骤是用 \(H^i\) 更新3DGS表示,然后从3DGS渲染获得3D一致的高分辨率图像 \(R^i\)。将 \(R^i\) 重新编码为潜空间得到3D一致潜变量 \(\ddot{x}_0^i\),用于替代原始估计 \(\hat{x}_0^i\) 进行去噪:

$\(x_{t-1}^i = \sqrt{\alpha_{t-1}} \ddot{x}_0^i + \eta_t \epsilon_\theta(x_t^i, t) + \sigma_t \epsilon_t\)$

  1. 子采样正则化训练目标(Subsampling-based Regularization): 总损失函数包含高分辨率监督和低分辨率一致性两项:

$\(\mathcal{L}_{\text{all}} = \mathcal{L}_{\text{hr}}(H^i, R^i) + \lambda \mathcal{L}_{\text{lr}}(L^i, R_{lr}^i)\)$

其中 \(R_{lr}^i\) 是将渲染图下采样到LR分辨率后的结果。两项损失均使用 \(\ell_1\) 损失和D-SSIM损失的组合:

$\(\mathcal{L}_\alpha = (1-\delta)\mathcal{L}_1^\alpha + \delta \mathcal{L}_{\text{D-SSIM}}^\alpha\)$

  1. 即插即用的SR模型兼容性: 框架中的扩散SR模型不限于单图ISR或视频VSR,可兼容未来更先进的SR方法。与SuperGaussian不同,本方法无需微调视频模型,通过显式3D表示更直接地强制一致性。

损失函数 / 训练策略

  • 使用Mip-Splatting作为3D表示,先在LR图像上训练30K迭代
  • 扩散采样步数设为4(使用StableSR-Turbo),每步训练3DGS 5K迭代
  • 子采样权重 \(\lambda=1\),D-SSIM权重 \(\delta=0.2\)
  • 所有实验在Nvidia A6000 GPU(49GB)上进行

实验关键数据

主实验

LLFF数据集(×8下采样,×4上采样):

方法 PSNR↑ SSIM↑ LPIPS↓ NIQE↓ MEt3R↓ FID↓
SuperGaussian 23.054 0.725 0.296 4.553 0.541 51.199
DiSR-NeRF 22.504 0.697 0.310 6.293 0.518 54.138
StableSR 22.748 0.717 0.219 4.793 0.531 41.129
3DSR (ours) 24.212 0.754 0.181 4.632 0.516 20.731

MipNeRF360数据集(×8下采样,×4上采样):

方法 PSNR↑ SSIM↑ LPIPS↓ NIQE↓ MEt3R↓ FID↓
SuperGaussian 25.252 0.725 0.303 4.694 0.675 32.652
StableSR 24.313 0.700 0.326 5.177 0.644 44.174
3DSR (ours) 26.097 0.746 0.222 5.065 0.625 22.438

消融实验

通过定性分析展示各组件效果:

对比项 现象
SuperGaussian vs 3DSR SuperGaussian输出更模糊,因LLFF训练视图有限
StableSR vs 3DSR StableSR产生伪影和几何扭曲,幻觉细节跨视图不对齐
DiSR-NeRF vs 3DSR DiSR-NeRF常产生黑色和模糊伪影
3DSR内外场景 室内和室外场景均保持结构完整性和细纹理
  • 3DSR在LLFF(×8→×4)上PSNR较StableSR高1.46dB,FID低20.4
  • MipNeRF360上PSNR较SuperGaussian高0.85dB,FID低10.2
  • MEt3R(3D一致性指标)从StableSR的0.531/0.644改善到3DSR的0.516/0.625

关键发现

  • 扩散模型的幻觉细节在独立SR时跨视图不一致,导致3DGS重建后出现模糊
  • 通过3DGS"融合"多个视图的SR结果,可有效平滑跨视图不一致性
  • 该方法无需微调扩散或视频模型,是一个通用的即插即用框架
  • NIQE感知质量指标上3DSR排第二,说明3D一致性约束轻微限制了单图感知质量

亮点与洞察

  • 扩散+3D表示的巧妙结合:不改动扩散模型,仅利用3D表示作为"跨视图一致性正则器"
  • 设计简洁通用:3D表示可替换为NeRF等其他形式,SR模型可替换为任意扩散SR
  • 评估指标全面:首次引入MEt3R(3D一致性度量)和FID到3D超分评估中
  • 对比StableSR的可视化展示了"先SR再3D"vs"SR与3D交织优化"的本质区别

局限与展望

  • 每个扩散去噪步都需训练3DGS,计算成本较高
  • 仅评估了×4和×2上采样,更大倍率(如×8)未验证
  • StableSR-Turbo仅用4步去噪,更多步数可能带来更好结果但计算更贵
  • 未探索不同3D表示(NeRF等)对效果的影响
  • NIQE指标并非最优,说明3D一致性和单图感知质量间存在权衡

相关工作与启发

  • MultiDiffusion和Generative Power of Ten在2D层面通过噪声平均实现一致性,本文将此思想扩展到3D
  • SuperGaussian依赖VSR的隐式一致性,本文通过显式3D表示更直接
  • DiSR-NeRF使用Score Distillation Sampling,本文使用 \(x_0\) 引导策略更稳定

评分

  • 新颖性: ⭐⭐⭐⭐ 扩散去噪循环中嵌入3DGS优化的思路自然且新颖
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集、多指标、多基线对比全面,但缺少消融表格
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,算法伪代码有助理解
  • 价值: ⭐⭐⭐⭐ 为3D场景的高质量渲染提供了通用框架,实际应用潜力大

相关论文