DPIR: Dual Prompting Image Restoration with Diffusion Transformers¶

会议: CVPR 2025
arXiv: 2504.17825
代码: 无
领域: 图像修复
关键词: 图像修复, 扩散Transformer, 双提示, 视觉提示, SD3

一句话总结¶

提出 DPIR，首个基于 Diffusion Transformer（SD3）的图像修复方法，通过轻量低质量图像条件分支和视觉-文本双提示控制分支，从全局上下文和局部外观两个视觉维度增强修复质量和保真度。

领域现状：现有图像修复方法主要基于 U-Net 架构的潜在扩散模型（StableSR、SUPIR），DiT 因其长程依赖和可扩展性展现出更好的生成潜力。

现有痛点：ControlNet 等条件控制方法为 U-Net 设计，不适用于 DiT 的 ViT 架构；纯文本描述无法充分捕捉低质量图像的丰富视觉特征；DiT 缺乏 U-Net 的跳跃连接，难以保持输入图像信息。

核心 idea：用 CLIP 图像编码器提取局部和全局视觉特征作为视觉提示，替代 SD3 中的 CLIP 文本嵌入，与 T5 文本提示形成双提示。

轻量低质量图像条件分支：几层卷积提取 LQ 特征，通过自适应特征对齐模块（归一化到 DiT 第一层输出的均值/方差）注入 DiT 第一层
双提示控制分支：用 CLIP 图像编码器提取 LQ 图像的视觉 token 嵌入（局部）和 cls 嵌入（全局），经 MLP 适配后替代 CLIP 文本嵌入，与 T5 文本提示拼接形成双提示
退化鲁棒 VAE 编码器：微调 SD3 VAE 编码器（16 通道），添加 LPIPS 和 GAN 损失保留细节

使用 SD3 的 conditional flow matching 目标。训练数据超过 2000 万张高质量图像。全局-局部视觉提示训练策略：训练时裁剪 patch 提取局部信息，周围区域提取全局上下文。

在 DIV2K 等数据集上全面超越 Real-ESRGAN、StableSR、SinSR、SUPIR 等方法，在视觉质量和保真度上均表现最优。

方法	PSNR↑	SSIM↑	LPIPS↓
Real-ESRGAN	24.3	0.72	0.35
StableSR	25.1	0.74	0.31
SUPIR	25.8	0.76	0.28
DPIR	26.5	0.78	0.24