跳转至

Image Diffusion Preview with Consistency Solver

会议: CVPR 2026
arXiv: 2512.13592
代码: https://github.com/G-U-N/consolver
领域: 扩散模型 / 图像生成
关键词: 扩散模型加速, ODE求解器, 强化学习, 预览-细化, 采样效率

一句话总结

本文提出 Diffusion Preview 范式和 ConsistencySolver——一个基于强化学习训练的轻量级高阶 ODE 求解器,在低步数采样时生成高质量预览图像并确保与全步数输出的一致性,用 47% 更少的步数达到与 Multistep DPM-Solver 相当的 FID,用户交互时间减少近 50%。

研究背景与动机

领域现状:扩散模型在高保真图像生成上表现卓越,但推理需要数值求解反向微分方程,计算量大。现有加速方法分为两类:无训练 ODE 求解器(DDIM、DPM-Solver、UniPC 等)和后训练蒸馏方法(LCM、DMD2 等)。

现有痛点:无训练求解器依赖理论假设,在低步数时生成质量差;蒸馏方法需要昂贵的重训练,会破坏 PF-ODE 的确定性映射(噪声空间到数据空间的对应关系),且蒸馏误差会累积导致生成质量下降。更关键的是,蒸馏模型通常失去了灵活的推理步数选择能力。

核心矛盾:用户在交互式生成(如设计原型)中需要快速预览多个变体来选择满意的方向,然后再做精细化。现有方法要么"快但质量差还不一致"(无训练求解器),要么"质量好但贵且破坏确定性"(蒸馏)。

本文目标 设计一个预览-细化(Preview-and-Refine)工作流,满足三个要求:(1) 预览保真度高(接近最终输出);(2) 预览效率高(低步数);(3) 预览与最终输出一致(相同随机种子产生视觉一致的结果)。

切入角度:不修改扩散模型本身,而是优化 ODE 求解器。将求解器的积分系数视为可学习策略,用强化学习搜索最优积分策略。

核心 idea:将 ODE 求解器系数参数化为轻量 MLP 并用 PPO 强化学习优化,使低步数采样最大化与全步数输出的相似度。

方法详解

整体框架

给定文本提示和噪声图,扩散模型 \(\epsilon_\phi\) 预测去噪方向。可学习 ODE 求解器 \(\Psi_\theta\) 用少量步数生成预览图像 \(\mathbf{x}_p\),无训练求解器 \(\Psi\) 用全步数生成目标图像 \(\mathbf{x}_{gt}\)。基于深度图、分割掩码、DINO 特征等计算相似度奖励 \(\mathcal{R}\),通过 PPO 更新 \(\theta\)

关键设计

  1. ConsistencySolver 的参数化形式:

    • 功能:自适应高阶 ODE 求解器,根据时间步动态调整积分策略
    • 核心思路:基于通用线性多步法(LMM)推导,每步更新为 \(\mathbf{y}_{t_{i+1}} = \mathbf{y}_{t_i} + (n_{t_{i+1}} - n_{t_i}) \cdot [\sum_{j=1}^{m} w_j(t_i, t_{i+1}) \cdot \epsilon_{i+1-j}]\),其中 \(\mathbf{y}_t = \mathbf{x}_t / \alpha_t\)。关键在于权重 \(w_j\) 不是固定的理论值,而是由一个轻量 MLP \(\mathbf{f}_\theta(t_i, t_{i+1})\) 根据当前和目标时间步动态预测。这个 MLP 只需要两个标量输入,输出 \(m\) 个权重
    • 设计动机:经典求解器(DDIM 是一阶、DPM-Solver-2 是中点近似)都可以被视为该框架的特例,只是权重取了不同的固定值。将权重变为可学习的,使求解器能够适应模型的实际采样动力学而非依赖理论假设
  2. 基于 PPO 的强化学习优化:

    • 功能:搜索最优求解器系数,最大化预览与目标的一致性
    • 核心思路:预先生成离线数据集 \(\{(c^{(k)}, z^{(k)}, x_{gt}^{(k)})\}\),固定后复用。每个 PPO episode,抽取一批三元组,展开 \(K\) 步预览轨迹。每步转换中 MLP 输出系数和概率。完成后计算相似度奖励 \(\mathcal{R} = \text{Sim}(x_{gt}, x_p)\),使用标准 PPO 裁剪代理目标更新策略。优势估计用批内自归一化
    • 设计动机:RL 相比蒸馏有三大优势:(1) 兼容不可微奖励,无需通过扩散轨迹反传;(2) 泛化性更好;(3) 训练开销更低(只有紧凑 MLP 参与梯度计算)
  3. 多维度相似度奖励设计:

    • 功能:从多个感知维度衡量预览与目标的一致性
    • 核心思路:默认使用深度图作为 RL 奖励函数。评估时使用六个维度:CLIP 语义对齐、DINO 结构一致性、Inception 感知相似度、SegFormer 分割精度、像素级 PSNR 和深度一致性
    • 设计动机:单一指标难以全面捕获一致性,多维度评估确保预览在语义、结构和几何上都忠实于最终输出

损失函数 / 训练策略

使用 PPO 裁剪代理目标,裁剪参数 \(\epsilon \in (0,1)\)。优势用批内均值和标准差归一化。训练时只更新轻量 MLP 参数(几千参数),扩散模型完全冻结。在 Stable Diffusion 上训练后,可直接迁移到 SD1.4、DreamShaper 甚至 SDXL 等不同架构和规模的模型。

实验关键数据

主实验

Stable Diffusion 文本到图像生成(COCO 2017):

方法 步数 FID↓ CLIP↑ DINO↑ Depth↑
DDIM 5 52.59 87.8 73.2 14.2
Multistep DPM 5 25.87 93.1 85.5 19.1
UniPC 5 23.15 93.2 85.5 18.7
ConsistencySolver 5 20.39 94.2 86.5 19.3
Multistep DPM 10 19.29 97.0 93.0 24.1
ConsistencySolver 8 18.82 96.4 91.2 22.2
LCM (蒸馏) 4 22.00 90.0 75.1 14.3
DMD2 (蒸馏) 1 19.88 89.3 73.8 12.6

跨模型泛化(SD1.5 训练 → 直接迁移):

目标模型 步数 Multistep DPM FID ConsistencySolver FID
SDXL 10 26.32 23.32
SD1.4 5 25.22 20.22

消融实验

对比维度 配置 FID↓ DINO↑
训练方法 RL (PPO) 20.39 86.5
Distillation (Ours-Distill) 22.91 85.1
AMED (蒸馏) 31.09 80.8
效率对比 ConsistencySolver 8步 18.82 91.2
DPM-Solver 10步(相近质量) 19.29 93.0

关键发现

  • ConsistencySolver-5步的 FID(20.39)已经优于 Multistep DPM-Solver-5步(25.87),减少约 21%
  • 8 步 ConsistencySolver(FID 18.82)可以匹配甚至超越 10 步 Multistep DPM-Solver(FID 19.29),实现 47% 步数节约(8 vs ~15 步达到同等质量)
  • RL 训练明显优于蒸馏训练(FID 20.39 vs 22.91),而且泛化性更好
  • 在 SD1.5 上训练的求解器可以直接迁移到 SDXL,说明不同扩散模型共享相似的最优采样动力学
  • 用户研究表明整体交互时间减少近 50%

亮点与洞察

  • "优化求解器而非模型"的范式:完全不碰扩散模型权重,只训练一个几千参数的 MLP 来做求解器,投入极低但效果显著。这种思路可以推广到任何需要加速采样的生成模型
  • 跨模型泛化的发现:在 SD1.5 上训练的求解器直接用到 SDXL 上仍然有效,暗示了不同扩散模型的最优采样策略具有共性,这是一个有价值的理论洞察
  • Preview-and-Refine 工作流的实用价值:将扩散模型的使用分为"快速探索"和"精细化"两阶段,非常贴合设计师的真实需求

局限与展望

  • 目前只验证了图像生成和图像编辑,未扩展到视频生成的加速
  • 奖励函数的选择(默认深度图)可能不是所有任务的最优选择
  • MLP 只接受 \((t_i, t_{i+1})\) 两个标量输入,未考虑当前图像状态的信息,可能限制了自适应能力
  • 可以尝试将 ConsistencySolver 与蒸馏方法结合使用

相关工作与启发

  • vs DPM-Solver / UniPC(无训练求解器): 这些方法用固定理论系数,ConsistencySolver 用学习的自适应系数,在低步数时优势明显
  • vs LCM / DMD2(蒸馏方法): 蒸馏方法修改了模型权重,破坏 PF-ODE 映射,且需要昂贵训练。ConsistencySolver 不碰模型,保持完整的确定性映射,训练成本极低
  • vs AMED(蒸馏求解器): 同样训练求解器系数,但 AMED 用轨迹蒸馏,ConsistencySolver 用 RL,后者泛化性更好

评分

  • 新颖性: ⭐⭐⭐⭐ 用 RL 训练 ODE 求解器是新颖角度,Preview-and-Refine 范式也很有实用性
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个模型验证、跨模型泛化、多种对比方法、用户研究、消融详尽
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰,与经典求解器的关系阐述到位
  • 价值: ⭐⭐⭐⭐ 实用价值高,训练成本极低,即插即用

相关论文