跳转至

GenDR: Lighten Generative Detail Restoration

会议: ICLR 2026
arXiv: 2503.06790
代码: 无
领域: 图像超分辨率/扩散模型
关键词: 单步超分, 潜在空间扩展, 分数蒸馏, VAE16通道, 一致性蒸馏

一句话总结

提出GenDR——面向生成式细节复原的轻量单步扩散超分模型:识别T2I和SR任务目标的根本分歧(T2I需多步+4通道 vs SR需少步+16通道)→构建定制SD2.1-VAE16基础模型(0.9B,通过REPA表示对齐扩展潜在空间而不增加模型规模)→提出CiD/CiDA一致性分数恒等蒸馏(将SR特定先验融入score distillation + 对抗学习 + 表示对齐)→极简pipeline仅含UNet+VAE→77ms推理在所有质量和效率指标上超越现有SOTA。

研究背景与动机

领域现状:基于扩散模型的真实世界超分辨率(SR)已取得显著进展,质量远超GAN方法,但推理速度慢且细节保真度存在瓶颈。

核心矛盾:T2I和SR的任务目标存在根本分歧——T2I从噪声生成完整图像需多步推理+低维潜在空间(4通道VAE降低生成难度),而SR仅需补充高频细节、步数需求少,但需要更大的潜在空间(16通道VAE)保留输入信息。

现有方法困境:加速推理(如OSEDiff一步蒸馏)会导致质量显著下降,提升质量(如DreamClear用PixArt-α+ControlNet)则引入巨大计算开销,陷入质量-效率的两难困境。

模型过大:现有16通道VAE的扩散模型(如FLUX 12B、SD3.5)对SR任务来说模型过大——FLUX做4×SR的单步处理需>40GB显存和1.4s运行时间,是SD2.1的5.3×/11.4×。

蒸馏方法缺陷:现有score distillation(VSD/SiD)面向T2I设计,直接用于SR会因训练分布不一致和对不完美score函数的过度依赖而产生质量/内容不一致。

本文切入:SR任务需要定制的基础模型(16通道+适当规模0.9B)+ 定制的蒸馏方法(融入SR先验的CiD)+ 极简化推理pipeline。

方法详解

关键设计一:SD2.1-VAE16——定制16通道潜在空间基础模型

  • 功能:基于SD2.1 UNet和开源16通道VAE,构建适合SR任务的0.9B基础扩散模型。
  • 核心思路:通过表示对齐(REPA)策略进行全参数训练,在UNet第一个下采样块后插入MLP投影头,将UNet中间特征 \(\mathbf{h}_t = f_\theta(\mathbf{z}_t)\) 与预训练DINOv2编码器的表示 \(\mathbf{h}_\mathcal{E} = \mathcal{E}(\mathbf{x}_h)\) 对齐:
\[\mathcal{L}^{(\text{repa})} = -\mathbb{E}_{\mathbf{x}_h, t}\left[\frac{1}{N}\sum_{n=1}^{N}\text{sim}\left(\mathbf{h}_\mathcal{E}[n], h(\mathbf{h}_t[n])\right)\right]\]
  • 设计动机:4通道VAE虽然适合T2I(降低生成难度),但对SR来说会丢失精细细节和结构信息(不可逆压缩损失)。16通道VAE提供更大的信息容量。而直接用FLUX等DiT的16通道模型过于庞大,因此基于轻量SD2.1构建是最佳平衡点。

关键设计二:CiD——一致性分数恒等蒸馏

  • 功能:将多步扩散蒸馏为单步,同时融入SR任务特定先验以保证训练稳定性和输出一致性。
  • 核心思路:在SiD的基础上做两个关键改进:(1) 用HR目标图像 \(\mathbf{z}_h\) 训练"真实"score网络 \(\phi\),使其输出分布与高保真图像流形对齐;(2) 用 \(\mathbf{z}_h\) 替换生成结果 \(\mathbf{z}_g\) 作为恒等变换,缓解生成质量波动带来的不稳定。最终CiD损失:
\[\mathcal{L}_\theta^{(\text{cid})} = \mathcal{L}_\theta^{(3)} - \xi \mathcal{L}_\theta^{(1)}\]

其中 \(\mathcal{L}_\theta^{(3)}\) 使用CFG增强引导并以 \(\mathbf{z}_h\) 为目标,\(\mathcal{L}_\theta^{(1)}\) 为原始SiD损失,\(\xi\) 为经验权重。

  • 设计动机:直接将T2I-oriented的VSD/SiD用于SR存在训练分布不一致(T2I对齐文本嵌入 vs SR对齐图像嵌入),导致质量和内容不一致。通过用HR真值优化"真实"score网络并引入恒等变换,将SR先验融入蒸馏过程。

关键设计三:CiDA——融合对抗学习与表示对齐

  • 功能:在CiD基础上引入对抗学习和表示对齐,进一步增强感知质量并加速训练。
  • 核心思路:利用预训练UNet \(\phi\) 作为特征提取器加判别头 \(h\) 进行对抗训练,同时加入REPA正则化:
\[\mathcal{L}_\theta^{(\text{cida})} = \lambda_1 \mathcal{L}_\theta^{(\text{cid})} + \lambda_2 \mathcal{L}_\theta^{(\text{adv})} + \lambda_3 \mathcal{L}_\theta^{(\text{repa})}\]

实现上用LoRA适配(rank=64, alpha=128)+模型共享策略(共享base model用于score网络和判别器特征提取),大幅减少显存和计算量。

  • 设计动机:纯蒸馏容易产生AI生成的"假感",对抗学习强制生成真实分布的细节;REPA在高层语义空间正则化避免结构偏差,同时加速收敛。

关键设计四:极简推理Pipeline

  • 功能:构建仅含VAE+UNet的极简推理管线。
  • 核心思路:移除scheduler(固定 \(\bar{\alpha}_t = \bar{\beta}_t = 0.5\)),移除text encoder/tokenizer,用预计算的固定prompt嵌入替代。77ms per 512²像素(A100)。
  • 设计动机:单步推理不需要scheduler调度多步;固定prompt嵌入在SR任务中提供通用质量描述且不影响IQA性能(MUSIQ仅差0.17但节省约30%参数和15ms时间)。

实验结果

表1:合成数据集 ImageNet-Test 量化比较(×4超分)

方法 步数 PSNR↑ NIQE↓ LIQE↑ ClipIQA↑ MUSIQ↑ Q-Align↑
Real-ESRGAN GAN 26.62 4.49 3.84 0.509 64.81 3.423
DiffBIR-50 50 25.45 4.93 4.64 0.749 73.04 4.323
DreamClear-50 50 24.76 5.38 4.43 0.765 70.08 4.092
OSEDiff-1 1 24.82 4.28 4.56 0.678 71.74 4.067
InvSR-1 1 23.81 4.39 4.56 0.711 72.38 3.987
GenDR-1 1 24.14 4.13 4.81 0.740 74.68 4.361

表2:真实数据集 RealSet80 量化比较

方法 推理时间 NIQE↓ LIQE↑ ClipIQA↑ MUSIQ↑ Q-Align↑
StableSR-50 3731ms 3.40 3.85 0.740 67.58 4.087
SeeSR-50 6359ms 4.37 4.28 0.712 69.74 4.306
DreamClear-50 6892ms 3.73 3.96 0.724 67.22 4.121
OSEDiff-1 103ms 3.98 4.13 0.704 69.19 4.306
InvSR-1 115ms 4.03 4.29 0.727 69.79 4.301
GenDR-1 77ms 3.98 4.52 0.742 71.57 4.453

消融实验:蒸馏策略(RealSet80)

基础模型 蒸馏策略 LIQE↑ ClipIQA↑ MUSIQ↑ Q-Align↑
SD2.1-VAE4 VSD 4.13 0.704 69.19 4.306
SD2.1-VAE4 CiDA 4.32 0.723 70.13 4.386
SD2.1-VAE16 VSD 4.12 0.691 68.82 4.373
SD2.1-VAE16 SiD 4.25 0.702 69.33 4.391
SD2.1-VAE16 CiD 4.44 0.715 70.61 4.428
SD2.1-VAE16 CiDA 4.52 0.742 71.57 4.453

关键发现

  1. T2I和SR的目标分歧是根源:T2I需从噪声生成全部内容→多步+4通道;SR仅补高频细节→少步+16通道。直接复用T2I模型做SR是次优方案。
  2. 16通道VAE对SR至关重要:即使在0.9B的小模型上,VAE16也比VAE4保留更多细节和结构信息。VAE16在T2I任务上略有下降(GenEval -0.02, FID +14.44),但在SR任务上显著更优。
  3. CiDA逐步提升显著:VSD→SiD→CiD→CiDA,Q-Align从4.373→4.391→4.428→4.453,每一步改进都有明确贡献(CiD占0.05,对抗占0.03)。
  4. 固定prompt嵌入不损失质量:相比DAPE/Qwen2.5VL动态生成prompt,固定嵌入的MUSIQ仅降0.17但推理时间从113ms/3.18s降至77ms,参数从1775M/8.3B降至933M。
  5. 速度-质量帕累托最优:GenDR以77ms(最快)和933M参数(次小)在所有NR-IQA指标上取得最佳,相比DreamClear加速89.5×且参数减半。

亮点

  • 问题洞察深刻:首次系统分析T2I和SR任务的目标分歧(步数需求+潜在空间维度),为SR定制diffusion model提供理论基础。
  • 系统性解决方案:从基础模型(VAE16)→蒸馏方法(CiD/CiDA)→推理pipeline(极简化)三个层面全面优化。
  • 效率突出:77ms单步推理、933M参数,比多步方法快近90×,比OSEDiff/InvSR也快25-33%。
  • CiDA训练效率:LoRA + 模型共享策略实现三个UNet的高效联合训练。

局限性

  • 未探索更大通道VAE:验证了16通道有效但未研究32/64通道等更大潜在空间,因训练整个SD模型成本过高。
  • CiDA显存需求高:虽用LoRA和DeepSpeed优化,CiDA仍需大量GPU显存,难以扩展到DiT模型(如FLUX/SD3.5)。
  • PSNR不占优:GenDR在感知质量指标(LIQE/MUSIQ/Q-Align)上领先,但PSNR低于GAN方法和部分多步方法,说明存在像素级保真度的权衡。

相关工作对比

维度 OSEDiff (Wu et al., 2024b) GenDR (本文)
基础模型 SD2.1 (4通道VAE, 0.9B) SD2.1-VAE16 (16通道VAE, 0.9B)
蒸馏方法 VSD直接应用+L1/MSE正则 CiDA: 融入SR先验+对抗+REPA
推理时间 103ms 77ms
Q-Align 4.306 4.453
维度 DreamClear (Ai et al., 2025) GenDR (本文)
基础模型 PixArt-α (2.2B) SD2.1-VAE16 (0.9B)
推理步数 50步 1步
辅助模块 2个ControlNet + MLLM 无(固定嵌入)
推理时间 6892ms (3×A100) 77ms (1×A100)
MUSIQ 67.22 71.57

评分 (1-5)

  • 新颖性: 4 — 对T2I/SR目标分歧的洞察新颖,CiD将SR先验融入score distillation是原创贡献,但整体框架仍在已有组件(SiD/REPA/LoRA)上改进组合。
  • 技术深度: 4 — CiD/CiDA的数学推导严谨,从VSD→SiD→CiD的演进逻辑清晰,各设计决策有消融验证。
  • 实验充分度: 4 — 覆盖合成+真实数据集,13种IQA指标,用户研究和MLLM评估,详细消融(蒸馏策略/VAE通道/prompt策略),但缺少下游任务评估。
  • 写作质量: 4 — 动机阐述清晰(Fig.2的可视化直观),方法推导层层递进,但notation较多需仔细跟。

相关论文