Bridging Diffusion Models and 3D Representations: A 3D Consistent Super-Resolution Framework¶

会议: ICCV 2025
arXiv: 2508.04090
代码: 项目页面
领域: 3D Vision
关键词: 3D超分辨率, 扩散模型, 3D高斯溅射, 多视图一致性, 新视图合成

一句话总结¶

提出3DSR框架，将扩散模型的2D超分辨率与3D高斯溅射（3DGS）表示相结合，在每个扩散去噪步骤中通过3DGS渲染来强制多视图3D一致性，实现高保真且空间一致的3D场景超分辨率。

研究背景与动机¶

3D表示学习（如NeRF、3DGS）在新视图合成方面取得了显著进展，但受限于输入相机视图的空间分辨率，合成图像常缺乏精细细节。现有超分辨率方案存在三大问题：

图像超分辨率（ISR）方法：独立处理每个视图，引入跨视图不一致性，导致3D重建出现伪影

视频超分辨率（VSR）方法：通过隐式时空聚合实现一定一致性，但无法保证3D视图一致性且细节保留较差

扩散模型超分辨率：能生成高质量细节但常产生幻觉内容，跨视图应用时纹理不一致

核心洞察：扩散模型擅长生成高频细节，但缺乏3D几何感知；3DGS擅长强制多视图一致性。将两者结合可兼得双方优势。

方法详解¶

整体框架¶

3DSR在扩散模型的去噪过程中，每个时间步执行以下循环：(a) 扩散SR模型预测干净潜变量 → (b) 解码为高分辨率图像 → (c) 用高分辨率图像训练3DGS并渲染一致视图 → (d) 将3D一致渲染图编码回潜空间 → (e) 用3D一致潜变量执行去噪步骤。编码器、解码器和扩散模型均保持冻结，仅优化3D表示。

关键设计¶

多视图一致噪声采样（Multiview Consistent Noise Sampling）: 给定低分辨率（LR）输入图像集 $\{L^i\}$ 和相机位姿 $\{P^i\}$，先用LR图像预训练3DGS模型。在扩散采样初始步骤，随机初始化噪声潜变量 $x_t^i$，SR模型估计干净潜变量 $\hat{x}_0^i$，解码为中间高分辨率图像 $H^i$。关键步骤是用 $H^i$ 更新3DGS表示，然后从3DGS渲染获得3D一致的高分辨率图像 $R^i$。将 $R^i$ 重新编码为潜空间得到3D一致潜变量 $\ddot{x}_0^i$，用于替代原始估计 $\hat{x}_0^i$ 进行去噪：

$$x_{t-1}^i = \sqrt{\alpha_{t-1}} \ddot{x}_0^i + \eta_t \epsilon_\theta(x_t^i, t) + \sigma_t \epsilon_t$$

子采样正则化训练目标（Subsampling-based Regularization）: 总损失函数包含高分辨率监督和低分辨率一致性两项：

$$\mathcal{L}_{\text{all}} = \mathcal{L}_{\text{hr}}(H^i, R^i) + \lambda \mathcal{L}_{\text{lr}}(L^i, R_{lr}^i)$$

其中 $R_{lr}^i$ 是将渲染图下采样到LR分辨率后的结果。两项损失均使用 $\ell_1$ 损失和D-SSIM损失的组合：

$$\mathcal{L}_\alpha = (1-\delta)\mathcal{L}_1^\alpha + \delta \mathcal{L}_{\text{D-SSIM}}^\alpha$$

即插即用的SR模型兼容性: 框架中的扩散SR模型不限于单图ISR或视频VSR，可兼容未来更先进的SR方法。与SuperGaussian不同，本方法无需微调视频模型，通过显式3D表示更直接地强制一致性。

损失函数 / 训练策略¶

使用Mip-Splatting作为3D表示，先在LR图像上训练30K迭代
扩散采样步数设为4（使用StableSR-Turbo），每步训练3DGS 5K迭代
子采样权重 $\lambda=1$，D-SSIM权重 $\delta=0.2$
所有实验在Nvidia A6000 GPU（49GB）上进行

实验关键数据¶

主实验¶

LLFF数据集（×8下采样，×4上采样）：

方法	PSNR↑	SSIM↑	LPIPS↓	NIQE↓	MEt3R↓	FID↓
SuperGaussian	23.054	0.725	0.296	4.553	0.541	51.199
DiSR-NeRF	22.504	0.697	0.310	6.293	0.518	54.138
StableSR	22.748	0.717	0.219	4.793	0.531	41.129
3DSR (ours)	24.212	0.754	0.181	4.632	0.516	20.731

MipNeRF360数据集（×8下采样，×4上采样）：

方法	PSNR↑	SSIM↑	LPIPS↓	NIQE↓	MEt3R↓	FID↓
SuperGaussian	25.252	0.725	0.303	4.694	0.675	32.652
StableSR	24.313	0.700	0.326	5.177	0.644	44.174
3DSR (ours)	26.097	0.746	0.222	5.065	0.625	22.438

消融实验¶

通过定性分析展示各组件效果：

对比项	现象
SuperGaussian vs 3DSR	SuperGaussian输出更模糊，因LLFF训练视图有限
StableSR vs 3DSR	StableSR产生伪影和几何扭曲，幻觉细节跨视图不对齐
DiSR-NeRF vs 3DSR	DiSR-NeRF常产生黑色和模糊伪影
3DSR内外场景	室内和室外场景均保持结构完整性和细纹理

3DSR在LLFF（×8→×4）上PSNR较StableSR高1.46dB，FID低20.4
MipNeRF360上PSNR较SuperGaussian高0.85dB，FID低10.2
MEt3R（3D一致性指标）从StableSR的0.531/0.644改善到3DSR的0.516/0.625

关键发现¶

扩散模型的幻觉细节在独立SR时跨视图不一致，导致3DGS重建后出现模糊
通过3DGS"融合"多个视图的SR结果，可有效平滑跨视图不一致性
该方法无需微调扩散或视频模型，是一个通用的即插即用框架
NIQE感知质量指标上3DSR排第二，说明3D一致性约束轻微限制了单图感知质量

亮点与洞察¶

扩散+3D表示的巧妙结合：不改动扩散模型，仅利用3D表示作为"跨视图一致性正则器"
设计简洁通用：3D表示可替换为NeRF等其他形式，SR模型可替换为任意扩散SR
评估指标全面：首次引入MEt3R（3D一致性度量）和FID到3D超分评估中
对比StableSR的可视化展示了"先SR再3D"vs"SR与3D交织优化"的本质区别

局限与展望¶

每个扩散去噪步都需训练3DGS，计算成本较高
仅评估了×4和×2上采样，更大倍率（如×8）未验证
StableSR-Turbo仅用4步去噪，更多步数可能带来更好结果但计算更贵
未探索不同3D表示（NeRF等）对效果的影响
NIQE指标并非最优，说明3D一致性和单图感知质量间存在权衡

评分¶

新颖性: ⭐⭐⭐⭐ 扩散去噪循环中嵌入3DGS优化的思路自然且新颖
实验充分度: ⭐⭐⭐⭐ 两个数据集、多指标、多基线对比全面，但缺少消融表格
写作质量: ⭐⭐⭐⭐ 方法描述清晰，算法伪代码有助理解
价值: ⭐⭐⭐⭐ 为3D场景的高质量渲染提供了通用框架，实际应用潜力大