RepLDM: Reprogramming Pretrained Latent Diffusion Models for High-Quality, High-Efficiency, High-Resolution Image Generation¶

会议: NeurIPS 2025 (Spotlight)

arXiv: 2410.06055

代码: GitHub

领域: 图像生成

关键词: 潜在扩散模型, 高分辨率生成, 模型重编程, 注意力引导, 渐进上采样

一句话总结¶

提出 RepLDM 重编程框架,通过注意力引导阶段和渐进上采样两个阶段,让预训练的潜在扩散模型无需重训练即可生成高质量高分辨率图像,同时大幅提升效率。

研究背景与动机¶

潜在扩散模型（如 Stable Diffusion）设计用于高分辨率图像生成,但在生成超过训练分辨率的图像时常出现严重的结构畸变。

现有方法的问题：

重训练代价高: 从头在高分辨率上训练模型需要大量计算资源

推理时间长: 现有重编程方法虽节省训练,但推理时需要大量去噪步数

质量不佳: 在潜在空间直接上采样导致严重伪影

结构不一致: 自注意力机制在高分辨率下的行为与训练分辨率不一致

方法详解¶

整体框架¶

RepLDM 分为两个阶段: (1) 注意力引导阶段——在训练分辨率下生成高质量初始化; (2) 渐进上采样阶段——在像素空间逐步提升分辨率。

关键设计¶

1. 注意力引导阶段 (Attention Guidance Stage)

在训练分辨率（如 512×512）下进行去噪
引入无训练的自注意力引导机制增强结构一致性
核心: 修改自注意力的 Key/Value 来引导生成更结构化的潜在表示
生成的潜在表示比标准方法更适合后续上采样

2. 渐进上采样阶段 (Progressive Upsampling Stage)

关键洞察: 在像素空间而非潜在空间进行上采样
潜在空间上采样导致编码器-解码器不匹配,产生严重伪影
像素空间上采样保持了 VAE 解码-编码的一致性
渐进方式: 512 → 768 → 1024 → ...每步仅需少量去噪步数

3. 高效去噪

第一阶段提供的高质量初始化使第二阶段仅需极少去噪步数（如 5-10 步）
总推理时间大幅低于现有方法

损失函数 / 训练策略¶

无训练: RepLDM 不涉及任何参数训练或微调
仅修改推理流程中的注意力计算和上采样策略
使用预训练模型的标准去噪目标

实验关键数据¶

主实验¶

1024×1024 分辨率图像生成质量 (基于 SD1.5, 512→1024):

方法	FID ↓	CLIP Score ↑	推理时间	结构一致性
直接生成 (SD)	85.2	0.265	8.5s	差
MultiDiffusion	42.3	0.285	45.2s	中
ScaleCrafter	38.5	0.292	52.8s	中
DemoFusion	32.1	0.301	68.5s	良
RepLDM (Ours)	25.8	0.315	18.2s	优

2048×2048 分辨率:

方法	FID ↓	CLIP Score ↑	推理时间
ScaleCrafter	52.3	0.275	185s
DemoFusion	45.8	0.288	235s
RepLDM (Ours)	35.2	0.302	52s

消融实验¶

各组件的贡献 (512→1024):

配置	FID	CLIP Score	推理时间
标准上采样 (潜在空间)	65.3	0.272	22s
+ 注意力引导	42.5	0.295	25s
+ 像素空间上采样	35.2	0.305	20s
+ 渐进方式 (RepLDM)	25.8	0.315	18.2s

关键发现¶

RepLDM 在质量（FID 25.8 vs 32.1）和速度（18.2s vs 68.5s）上同时超越 SOTA
像素空间上采样是质量提升的关键，避免了潜在空间伪影
注意力引导为上采样提供更好的初始化，减少后续步骤需求
从 512→2048 的 4 倍上采样时，速度优势更加明显（52s vs 235s）

亮点与洞察¶

Spotlight 论文: NeurIPS 2025 的亮点论文，影响力和质量获认可
三重优势: 高质量、高效率、高分辨率的统一,而非权衡
关键洞察: 在像素空间而非潜在空间上采样的选择避免了根本性问题

局限与展望¶

目前主要基于 UNet 架构 (SD1.5/SDXL),DiT 架构的适配有待验证
文本到图像的长 prompt 对齐在高分辨率下可能退化
渐进策略的中间分辨率选择缺乏自适应性
评估主要使用 FID 和 CLIP Score,缺少人工评估

评分¶

⭐ 创新性: 8/10 — 像素空间上采样的洞察简单但关键
⭐ 实用性: 9/10 — 速度快质量好,开源可用
⭐ 写作质量: 8/10 — Spotlight级别的整体质量