跳转至

PatchScaler: An Efficient Patch-Independent Diffusion Model for Image Super-Resolution

会议: ICCV 2025
arXiv: 2405.17158
代码: https://github.com/yongliuy/PatchScaler
领域: 图像超分辨率 / 扩散模型
关键词: 超分辨率, Patch自适应采样, 扩散加速, 纹理提示, DiT

一句话总结

本文提出 PatchScaler,一种 Patch 级独立扩散超分管线,通过全局修复模块生成置信度图量化各区域重建难度,并将 Patch 分组为简单/中等/困难三组分配不同采样步数,搭配纹理提示检索机制,在 RealSR 上仅 0.23× ResShift 运行时间达到更优质量。

研究背景与动机

扩散模型 SR 的效率问题:扩散模型大幅提升了超分的感知质量,但大量迭代采样导致推理效率低下,尤其处理高分辨率图像时计算开销巨大。

统一采样的次优性:现有加速方法(条件蒸馏、重定义扩散过程)统一减少所有区域的采样步数,忽略了不同区域重建难度的差异——结构简单的区域几步即可重建,而纹理丰富的区域需要更多步骤。

文本提示的局限:在 SR 任务中,文本提示与图像内容的对齐度远低于 T2I 任务,局部纹理恢复更需要视觉级条件信息而非文本描述。

核心观察:如图 1(a) 所示,简单 patch 仅需 2 步即可高质量重建,而复杂 patch 需要 15 步。

方法详解

整体架构

PatchScaler 分三个阶段:

  1. 全局修复模块(GRM):移除退化并生成粗 HR 特征和置信度图
  2. Patch 自适应分组采样(PGS):按置信度分组设置不同采样配置
  3. Patch-DiT:以纹理提示为条件精细化各组 Patch

关键设计一:全局修复模块与置信度图

GRM 同时输出粗 HR 特征 \(\mathbf{y}_{HR}\) 和置信度图 \(C\),训练目标:

\[L(\theta) = \|\mathbf{y}_{HR} - \mathbf{x}_{HR}\|_1^2 + \lambda(C\|\mathbf{y}_{HR} - \mathbf{x}_{HR}\|_2^2 - \eta\log(C))\]

低置信度区域表明 GRM 重建困难(需更多扩散步改进),高置信度则表明已足够好。

关键设计二:Patch 自适应分组采样 (PGS)

将粗 HR 特征切为 patch 并按平均置信度分组:

\[Qmap_{\mathbf{y}_{0,i}} = \begin{cases}\text{Simple}, & Avg(C\langle\mathbf{y}_{0,i}\rangle) \in (\gamma_1, 1] \\\text{Medium}, & Avg(C\langle\mathbf{y}_{0,i}\rangle) \in (\gamma_2, \gamma_1] \\\text{Hard}, & Avg(C\langle\mathbf{y}_{0,i}\rangle) \in [0, \gamma_2]\end{cases}\]

快捷路径推导:设 \(\mathbf{x}_0 = \mathbf{y}_0 + \triangle\mathbf{x}_0\),当 GRM 已去除退化后 \(\triangle\mathbf{x}_0\) 较小。找到适当中间时间步 \(\tau\) 使得 \(\sqrt{\bar{\alpha}_\tau}\triangle\mathbf{x}_0 \to 0\)

\[q(\mathbf{x}_\tau|\mathbf{y}_0) \approx \mathcal{N}(\mathbf{x}_\tau; \sqrt{\bar{\alpha}_\tau}\mathbf{y}_0, (1-\bar{\alpha}_\tau)\mathbf{I})\]

不同组设置不同 \((T_i, N_i)\): - Simple: \(T_1 < T_2 < T_3\), \(N_1 < N_2 < N_3\) - 简单 patch 从更近的中间点出发,用更少步数完成

关键设计三:纹理提示

构建通用参考纹理记忆库(RTM): - 收集多样高质量纹理 patch 作为 RTM-value - 用纹理分类器提取语义特征作为 RTM-key - 推理时对目标 patch 提取 query,通过内积检索最相似的纹理 patch 作为条件

纹理提示为 Patch-DiT 提供局部纹理先验,替代不够精确的文本提示。

Patch-DiT 架构

基于 DiT 构建,天然适合处理 token 序列形式的 patch 级特征。相比 U-Net 在低分辨率 patch 上效果更好。

实验

RealSR 4× 定量对比

方法 CLIPIQA↑ MUSIQ↑ NIQE↓ 运行时间(s)
Real-ESRGAN 基线 基线 基线
StableSR -
DiffBIR -
ResShift 较高 较高 - 中等
PatchScaler 最优 最优 最优 0.23× ResShift

消融实验

配置 效果
统一采样 vs PGS PGS 质量相当但速度显著提升
无纹理提示 纹理丰富区域细节下降
文本提示 vs 纹理提示 纹理提示在 SR 任务中更有效
3组 vs 2组 vs 1组 3组最佳平衡

关键发现

  • PatchScaler 在 512→2048 SR 任务上运行时间仅为 ResShift 的 0.23×
  • 置信度图准确反映区域难度:复杂纹理→困难组,平坦区域→简单组
  • 纹理提示比文本提示在 SR 中更有效——文本提示与局部纹理的对齐度自然较低
  • 简单 patch 可跳过大部分扩散步骤而不损失质量,验证了自适应采样的合理性
  • 对高分辨率图像加速效果更显著(patch 越多,简单 patch 比例通常越高)

亮点与洞察

  1. patch 级自适应采样首次在 SR 扩散中实现,从根本上解决了统一采样的效率浪费
  2. 置信度驱动分组有理论支撑——\(\triangle\mathbf{x}_0\) 小时可用更近的中间点出发
  3. 纹理提示巧妙替代了 SR 场景下不够精确的文本提示
  4. patch-independent 管线天然支持并行计算和高分辨率扩展

局限性

  • 需要预训练 GRM 并构建 RTM,额外训练开销
  • patch 边界处理(如拼接伪影)需要额外注意
  • 纹理检索质量依赖 RTM 的覆盖面

相关工作

  • 扩散 SR: StableSR, DiffBIR, ResShift
  • 经典 SR: Real-ESRGAN, BSRGAN, SwinIR
  • 扩散加速: 条件蒸馏, DDIM, DPM-Solver

评分

  • 新颖性:⭐⭐⭐⭐⭐ — Patch 自适应采样 + 纹理提示双创新
  • 技术深度:⭐⭐⭐⭐ — 快捷路径理论推导完整
  • 实验充分度:⭐⭐⭐⭐ — 多数据集、速度对比详尽
  • 实用价值:⭐⭐⭐⭐⭐ — 0.23× 运行时间、高分辨率友好

相关论文