跳转至

Diffusion Sampling Correction via Approximately 10 Parameters

会议: ICML 2025
arXiv: 2411.06503
代码: https://github.com/onefly123/PAS (有)
领域: 扩散模型 / 采样加速
关键词: 扩散模型加速, PCA采样修正, 低参数训练, 即插即用, 截断误差

一句话总结

提出PCA-based Adaptive Search (PAS)方法,利用采样轨迹处于高维空间低维子空间的几何特性,通过PCA提取少量正交基向量并仅学习约10个坐标参数来修正现有快速采样器的截断误差,在单张A100上亚分钟训练即可将DDIM在CIFAR10上的FID从15.69降至4.37(NFE=10)。

研究背景与动机

领域现状:扩散概率模型(DPM)在图像生成、文本到图像、视频生成等领域展现了强大能力,但其逆向去噪过程通常需要数百到上千步迭代,采样速度极慢,是实际应用的核心瓶颈。

现有痛点:加速采样的方法分为两大类——无训练方法(如DDIM、DPM-Solver)在NFE<10时累积截断误差严重放大,导致生成质量骤降;训练方法(如蒸馏)虽可实现一步采样,但训练代价极高(CIFAR10上即需超100个A100 GPU小时),且会破坏原始ODE轨迹的插值能力。

核心矛盾:如何以极低成本修正少步采样时被放大的截断误差?低成本训练方法虽已有探索(如AMED、GITS),但仍需训练小型神经网络,参数量和训练开销远非"可忽略"。

本文目标:设计一种即插即用的极低参数方法,让现有快速求解器(DDIM、iPNDM等)在NFE<10时也能获得高质量采样,同时保留原始扩散路径的插值能力。

切入角度:作者观察到两个关键几何特性——(1) 单个样本的采样轨迹处于高维空间的约3维子空间中;(2) 不同样本的累积截断误差呈统一的"S"形分布。前者意味着可以用PCA提取极少基向量来表达采样方向,后者意味着只在高曲率区域修正即可跳过大部分步骤。

核心 idea:用PCA将高维采样方向修正问题降维到低维坐标搜索问题,只需约10个参数和亚分钟训练即可大幅改善采样质量。

方法详解

整体框架

PAS是一个三步pipeline:(1) 用高NFE的teacher求解器生成ground truth轨迹;(2) 在每个采样步用PCA分解已有轨迹获取正交基向量,学习低维坐标来修正采样方向;(3) 通过自适应搜索策略仅在高曲率区域保留修正参数,将存储参数压缩到约10个。整个过程对原始预训练模型完全不做修改,是纯粹的即插即用方案。

关键设计

  1. PCA基向量采样修正

    • 功能:在每个采样步 \(t_i \to t_{i-1}\) 中,利用PCA从已有采样轨迹 \(\{x_{t_N}, d_{t_N}, ..., d_{t_{i+1}}\}\) 中提取少量正交基向量,然后学习对应坐标 \(\mathbf{C}=[c_1, c_2, c_3, c_4]\) 来纠正采样方向 \(d_{t_i}\)
    • 核心思路:采样轨迹处于约3维子空间(PCA验证),因此只需3-4个基向量就能完整覆盖轨迹空间。第一个基向量设为当前方向 \(d_{t_i}\) 的归一化,其余通过SVD分解+Schmidt正交化得到。每个采样步只需学4个标量坐标,总参数量极低。
    • 设计动机:传统训练方法需要神经网络直接产出高维修正向量,参数和计算开销巨大。PCA将问题从"在D维空间搜索最优方向"降维到"在4维坐标空间搜索",训练成本降低了多个数量级。
  2. 自适应搜索策略

    • 功能:根据"S"形截断误差分布,自动判断哪些采样步需要修正、哪些可以跳过。
    • 核心思路:观察到累积截断误差呈S形——开始慢增、中间急增、结尾又趋缓——对应轨迹先线性、后弯曲、再线性。只有弯曲段(高曲率区域)需要修正,线性段修正反而引入偏差。通过设定容忍度 \(\tau\),比较修正前后的L2 loss来判定是否保留修正。
    • 设计动机:不加自适应搜索的PCA修正(PAS-AS)效果甚至比原始DDIM更差(FID从15.69恶化到120+),因为在线性段的修正引入了其他基方向的偏差。自适应搜索将N个采样步的修正压缩到1-3个步骤,参数从4N降至4-12个。
  3. SGD坐标训练

    • 功能:用SGD优化坐标参数,使修正后的采样点逼近ground truth轨迹。
    • 核心思路:给定teacher轨迹 \(\{x_{t_i}^{gt}\}\),以L2距离为损失函数,用SGD一步更新坐标 \(\mathbf{C}\)。因为只有4个参数,一步梯度更新就足以找到好的方向。训练使用5k条ground truth轨迹,在CIFAR10上耗时不到1分钟。
    • 设计动机:坐标参数描述的是"偏离当前方向多远",初始值为 \([\|d_{t_i}\|_2, 0, 0, 0]\)(即不修正),SGD从这个初始点出发搜索最优偏移,收敛极快。

损失函数 / 训练策略

  • Ground truth轨迹生成:用Heun二阶求解器+100 NFE生成高精度参考轨迹
  • 损失函数:推荐使用L1 loss(消融实验证实L1优于L2、LPIPS和Pseudo-Huber)
  • 训练策略:顺序修正——先修正 \(d_{t_N}\),再修正 \(d_{t_{N-1}}\)(因为前一步修正会改变后续状态),配合自适应搜索按需保留修正参数
  • 时间调度:采用EDM的多项式时间调度 \(\rho=7\),teacher轨迹通过在student时间步间插入中间步生成

实验关键数据

主实验

数据集 基础采样器 原始FID(NFE=10) PAS后FID 参数数 提升
CIFAR10 32×32 DDIM 15.69 4.37 12 -72.1%
CIFAR10 32×32 iPNDM 3.69 2.84 8 -23.0%
FFHQ 64×64 DDIM 18.37 5.61 ~16 -69.5%
FFHQ 64×64 iPNDM 4.95 4.28 ~8 -13.5%
ImageNet 64×64 DDIM 16.72 9.13 ~20 -45.4%
LSUN Bedroom 256×256 DDIM 11.42 6.23 ~16 -45.4%
Stable Diffusion 512 DDIM 16.56 14.23 ~4 -14.1%

消融实验

配置 关键指标(FID, NFE=10) 说明
DDIM基线 15.69 无修正
PAS(-AS) 不用自适应 120.32 全步修正反而恶化
PAS完整 4.37 自适应搜索是关键
2个基向量 ~5.5 已有显著改进
4个基向量 4.37 最优
500条轨迹训练 ~6.0 少量轨迹即有效
5k条轨迹训练 4.37 最优平衡点

关键发现

  • 自适应搜索是PAS成功的关键——没有它全步修正反而严重恶化
  • 4个基向量足以跨越采样轨迹空间(与PCA累积方差分析一致)
  • 仅500条轨迹即可获得显著改善,5k条为最优
  • PAS可与Teleportation (TP) 叠加使用:DDIM+TP+PAS在CIFAR10上NFE=10时FID低至3.16
  • 在Stable Diffusion上PAS+DDIM超过了DPM-Solver-v3等SOTA求解器
  • 学习率和tolerance等超参数对DDIM修正不敏感,对iPNDM需微调

亮点与洞察

  • "约10个参数"的标题极具冲击力——12个标量可以硬编码进推理代码,零额外存储开销
  • PCA的使用将几何洞察转化为实用算法——观察到低维子空间特性并巧妙利用,是理论驱动的典型范例
  • S形误差曲线的发现揭示了扩散采样的内在规律——从噪声到结构的转折区误差最大,与"先轮廓后细节"的生成模式一致
  • 完全保留原始ODE轨迹——不像蒸馏方法会破坏模式间插值能力,适用于需要轨迹连续性的下游任务

局限与展望

  • 需要先生成参考轨迹做PCA(虽然成本低但仍有前置步骤)
  • NFE<5时改善有限(CIFAR10上NFE=4时DDIM+PAS仍有FID 41.14)
  • 对iPNDM等本身截断误差较小的求解器提升幅度有限,且超参数需更仔细调节
  • 当前仅在特定时间调度下验证,对自适应时间调度的兼容性未探索

相关工作与启发

  • 轨迹几何方法:AMED利用均值定理降维、GITS利用轨迹一致性优化调度——PAS在此基础上进一步用PCA修正方向
  • 低成本训练方法:BK-SDM蒸馏小学生模型、DRS训练判别器——PAS的参数量比这些方法低多个数量级
  • 与Consistency Models互补:CM学习直接映射(一步生成),PAS修正多步采样器——前者追求极致速度,后者追求中等步数质量

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 约10参数修正扩散采样,极致的参数效率创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个数据集×多种求解器×详尽消融实验
  • 写作质量: ⭐⭐⭐⭐⭐ 理论动机→几何观察→算法设计→实验验证的完整叙事
  • 价值: ⭐⭐⭐⭐⭐ 极低成本的通用扩散采样加速方案,实用价值高

相关论文