OmniSSR: Zero-shot Omnidirectional Image Super-Resolution using Stable Diffusion Model¶
会议: ECCV 2024
arXiv: 2404.10312
领域: 图像生成
一句话总结¶
提出 OmniSSR,首个基于扩散模型的零样本全向图像超分方法,通过十八面切线投影信息交互(OTII)和梯度分解(GD)校正技术,利用 Stable Diffusion 的图像先验实现保真度和真实感的平衡,无需任何训练或微调。
研究背景与动机¶
全向图像(ODI)在 VR、监控等场景中应用广泛,超分辨率可提升视觉细节。现有全向图像超分方法(ODISR)面临两大挑战:
端到端方法的局限:大多数方法(如 SphereSR、OSRT)只能产生确定性输出,数据保真度好但感知质量差(过度平滑),且训练需要大量高分辨率 ODI(采集成本高)
直接应用扩散先验的困难:如果将 ERP 图像分割为切线投影(TP)图像后逐一独立超分,重投影回 ERP 时重叠区域会出现不一致,破坏全局连续性
本文的核心思路是:利用 Stable Diffusion 的强图像先验,在 ERP 和 TP 之间反复转换以融合信息,并通过梯度分解校正保证一致性约束。
方法详解¶
整体框架¶
OmniSSR 的流程分三步:
- 预处理:将低分辨率 ERP 图像上采样后投影为 18 个 TP 图像
- 迭代去噪:在每个去噪步中,TP 图像通过 SD(含 time-aware adapter)去噪,再进行 OTII 信息交互和 GD 校正
- 后处理:将最终 TP 图像逆投影回 ERP 格式并做最终 GD 校正
关键设计¶
十八面切线投影信息交互(OTII):
- 单张 ERP 图像由 18 个 TP 图像表示
- 在每个去噪步中,将中间结果在 ERP 和 TP 格式之间交替转换:TP→ERP(信息融合)→TP(回到可用 SD 的平面域)
- 解决了独立处理 TP 图像导致的全局不连续问题
- 预上采样策略:在投影变换前先对源图像做双三次上采样,显著减轻投影变换中的信息损失
梯度分解(GD)校正:
将超分建模为逆问题 \(\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{n}\),通过梯度下降得到解析近似解:
分解为两项: - \(\gamma \mathbf{A}^\dagger \mathbf{E}_{init}\):保证与输入的一致性(保真度) - \((\mathbf{I} - \gamma \mathbf{A}^\dagger \mathbf{A})\mathbf{E}_{0|t}\):迭代更新 SD 生成结果(真实感)
超参数 \(\gamma\) 平衡保真度和视觉质量,设置 \(\gamma_p=1.0\), \(\gamma_e=1.0\), \(\gamma_l=0.5\)。
同时在潜空间中进行去噪结果融合:\(\tilde{\mathbf{z}}_{0|t}^{(i)} = (1-\gamma_l)\mathbf{z}_{0|t}^{(i)} + \gamma_l \mathcal{E}(\tilde{\mathbf{x}}_{0|t}^{(i)})\)
损失函数¶
OmniSSR 是零样本方法,无需训练损失。其核心优化在推理时通过 GD 校正实现,本质上是对凸优化问题 \(\arg\min_{\mathbf{x}} \|\mathbf{y} - \mathbf{Ax}\|_2^2 + \lambda \mathcal{R}(\mathbf{x})\) 的梯度下降近似求解。
实验关键数据¶
主实验¶
ODI-SR 和 SUN 360 数据集上的定量比较(×4 超分):
| 方法 | WS-PSNR↑ | WS-SSIM↑ | FID↓ | LPIPS↓ |
|---|---|---|---|---|
| Bicubic | 25.43 | 0.7059 | 50.84 | 0.3755 |
| DDRM | 25.43 | 0.7367 | 32.69 | 0.3206 |
| DPS | 24.75 | 0.6594 | 120.74 | 0.4911 |
| GDP | 23.16 | 0.6692 | 77.43 | 0.4260 |
| PSLD | 21.72 | 0.5498 | 107.99 | 0.5329 |
| StableSR | 23.33 | 0.6577 | 49.95 | 0.3135 |
| OmniSSR | 25.77 | 0.7279 | 30.97 | 0.2977 |
与端到端监督方法对比(×4 SR,ODI-SR):
| 方法 | WS-PSNR↑ | FID↓ | LPIPS↓ | NIQE↓ | DISTS↓ |
|---|---|---|---|---|---|
| SwinIR | 26.76 | 27.94 | 0.3321 | 5.3961 | 0.1710 |
| OSRT | 26.89 | 27.39 | 0.3258 | 5.4364 | 0.1695 |
| OmniSSR | 25.77 | 30.97 | 0.2977 | 5.2891 | 0.1541 |
消融实验¶
OTII 和 GD 校正的逐步消融(ODI-SR ×2):
| 输入类型 | OTII | GD | WS-PSNR↑ | FID↓ | LPIPS↓ |
|---|---|---|---|---|---|
| ERP | ✗ | ✗ | 22.69 | 44.87 | 0.3039 |
| TP | ✗ | ✗ | 23.53 | 43.91 | 0.3113 |
| TP | ✓ | ✗ | 23.74 | 65.35 | 0.3748 |
| TP | ✗ | ✓(仅后处理) | 26.77 | 15.41 | 0.1691 |
| TP | ✓ | ✓ | 28.58 | 13.01 | 0.1575 |
关键发现¶
- OmniSSR 在零样本设置下,保真度指标(WS-PSNR)接近监督方法,而感知质量指标(LPIPS、NIQE、DISTS)全面超越
- OTII + GD 的组合效果远超各自单独使用,PSNR 从 22.69 提升到 28.58(+5.89dB)
- 预上采样策略使 ERP↔TP 转换的 PSNR 从 28.98 提升至 38.18((4,4) 设置),大幅减缓了投影变换的信息损失
- GD 校正在每步去噪中应用比仅在后处理中应用效果更好
亮点与洞察¶
- 零样本范式:完全不需要全向图像数据训练,利用现成的平面图像 SD 先验,解决了高分辨率 ODI 数据稀缺的问题
- OTII 设计精巧:通过 ERP↔TP 的反复转换在去噪过程中融合全局信息,弥补了独立处理 TP 图像的连续性缺陷
- GD 校正理论清晰:基于凸优化的梯度下降框架,提供了保真度-真实感平衡的解析解,超参数 \(\gamma\) 有明确的物理意义
- 通用扩展性:框架可扩展到 ODI 编辑、ODI 修复、3D 高斯泼溅增强等任务
局限性¶
- 推理速度慢:每张 1024×2048 ERP 图像约需 14 分钟,难以实时超分
- ERP↔TP 的多次转换消耗额外推理时间
- GD 校正的超参数 \(\gamma\) 需手动网格搜索调节,尚未做到自适应
评分¶
⭐⭐⭐⭐ (4/5)
- 新颖性:★★★★★ — 首个扩散模型零样本 ODISR 方法
- 技术:★★★★ — OTII 和 GD 理论推导严谨,组合效果显著
- 实验:★★★★ — 多数据集多指标评估,消融充分
- 实用性:★★★ — 推理速度制约实际部署
相关论文¶
- [ECCV 2024] Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization
- [ECCV 2024] XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution
- [ECCV 2024] Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image Synthesis
- [ECCV 2024] SMooDi: Stylized Motion Diffusion Model
- [ECCV 2024] Memory-Efficient Fine-Tuning for Quantized Diffusion Model