Diffusion Sampling Correction via Approximately 10 Parameters¶
会议: ICML 2025
arXiv: 2411.06503
代码: https://github.com/onefly123/PAS (有)
领域: 扩散模型 / 采样加速
关键词: 扩散模型加速, PCA采样修正, 低参数训练, 即插即用, 截断误差
一句话总结¶
提出PCA-based Adaptive Search (PAS)方法,利用采样轨迹处于高维空间低维子空间的几何特性,通过PCA提取少量正交基向量并仅学习约10个坐标参数来修正现有快速采样器的截断误差,在单张A100上亚分钟训练即可将DDIM在CIFAR10上的FID从15.69降至4.37(NFE=10)。
研究背景与动机¶
领域现状:扩散概率模型(DPM)在图像生成、文本到图像、视频生成等领域展现了强大能力,但其逆向去噪过程通常需要数百到上千步迭代,采样速度极慢,是实际应用的核心瓶颈。
现有痛点:加速采样的方法分为两大类——无训练方法(如DDIM、DPM-Solver)在NFE<10时累积截断误差严重放大,导致生成质量骤降;训练方法(如蒸馏)虽可实现一步采样,但训练代价极高(CIFAR10上即需超100个A100 GPU小时),且会破坏原始ODE轨迹的插值能力。
核心矛盾:如何以极低成本修正少步采样时被放大的截断误差?低成本训练方法虽已有探索(如AMED、GITS),但仍需训练小型神经网络,参数量和训练开销远非"可忽略"。
本文目标:设计一种即插即用的极低参数方法,让现有快速求解器(DDIM、iPNDM等)在NFE<10时也能获得高质量采样,同时保留原始扩散路径的插值能力。
切入角度:作者观察到两个关键几何特性——(1) 单个样本的采样轨迹处于高维空间的约3维子空间中;(2) 不同样本的累积截断误差呈统一的"S"形分布。前者意味着可以用PCA提取极少基向量来表达采样方向,后者意味着只在高曲率区域修正即可跳过大部分步骤。
核心 idea:用PCA将高维采样方向修正问题降维到低维坐标搜索问题,只需约10个参数和亚分钟训练即可大幅改善采样质量。
方法详解¶
整体框架¶
PAS是一个三步pipeline:(1) 用高NFE的teacher求解器生成ground truth轨迹;(2) 在每个采样步用PCA分解已有轨迹获取正交基向量,学习低维坐标来修正采样方向;(3) 通过自适应搜索策略仅在高曲率区域保留修正参数,将存储参数压缩到约10个。整个过程对原始预训练模型完全不做修改,是纯粹的即插即用方案。
关键设计¶
-
PCA基向量采样修正:
- 功能:在每个采样步 \(t_i \to t_{i-1}\) 中,利用PCA从已有采样轨迹 \(\{x_{t_N}, d_{t_N}, ..., d_{t_{i+1}}\}\) 中提取少量正交基向量,然后学习对应坐标 \(\mathbf{C}=[c_1, c_2, c_3, c_4]\) 来纠正采样方向 \(d_{t_i}\)。
- 核心思路:采样轨迹处于约3维子空间(PCA验证),因此只需3-4个基向量就能完整覆盖轨迹空间。第一个基向量设为当前方向 \(d_{t_i}\) 的归一化,其余通过SVD分解+Schmidt正交化得到。每个采样步只需学4个标量坐标,总参数量极低。
- 设计动机:传统训练方法需要神经网络直接产出高维修正向量,参数和计算开销巨大。PCA将问题从"在D维空间搜索最优方向"降维到"在4维坐标空间搜索",训练成本降低了多个数量级。
-
自适应搜索策略:
- 功能:根据"S"形截断误差分布,自动判断哪些采样步需要修正、哪些可以跳过。
- 核心思路:观察到累积截断误差呈S形——开始慢增、中间急增、结尾又趋缓——对应轨迹先线性、后弯曲、再线性。只有弯曲段(高曲率区域)需要修正,线性段修正反而引入偏差。通过设定容忍度 \(\tau\),比较修正前后的L2 loss来判定是否保留修正。
- 设计动机:不加自适应搜索的PCA修正(PAS-AS)效果甚至比原始DDIM更差(FID从15.69恶化到120+),因为在线性段的修正引入了其他基方向的偏差。自适应搜索将N个采样步的修正压缩到1-3个步骤,参数从4N降至4-12个。
-
SGD坐标训练:
- 功能:用SGD优化坐标参数,使修正后的采样点逼近ground truth轨迹。
- 核心思路:给定teacher轨迹 \(\{x_{t_i}^{gt}\}\),以L2距离为损失函数,用SGD一步更新坐标 \(\mathbf{C}\)。因为只有4个参数,一步梯度更新就足以找到好的方向。训练使用5k条ground truth轨迹,在CIFAR10上耗时不到1分钟。
- 设计动机:坐标参数描述的是"偏离当前方向多远",初始值为 \([\|d_{t_i}\|_2, 0, 0, 0]\)(即不修正),SGD从这个初始点出发搜索最优偏移,收敛极快。
损失函数 / 训练策略¶
- Ground truth轨迹生成:用Heun二阶求解器+100 NFE生成高精度参考轨迹
- 损失函数:推荐使用L1 loss(消融实验证实L1优于L2、LPIPS和Pseudo-Huber)
- 训练策略:顺序修正——先修正 \(d_{t_N}\),再修正 \(d_{t_{N-1}}\)(因为前一步修正会改变后续状态),配合自适应搜索按需保留修正参数
- 时间调度:采用EDM的多项式时间调度 \(\rho=7\),teacher轨迹通过在student时间步间插入中间步生成
实验关键数据¶
主实验¶
| 数据集 | 基础采样器 | 原始FID(NFE=10) | PAS后FID | 参数数 | 提升 |
|---|---|---|---|---|---|
| CIFAR10 32×32 | DDIM | 15.69 | 4.37 | 12 | -72.1% |
| CIFAR10 32×32 | iPNDM | 3.69 | 2.84 | 8 | -23.0% |
| FFHQ 64×64 | DDIM | 18.37 | 5.61 | ~16 | -69.5% |
| FFHQ 64×64 | iPNDM | 4.95 | 4.28 | ~8 | -13.5% |
| ImageNet 64×64 | DDIM | 16.72 | 9.13 | ~20 | -45.4% |
| LSUN Bedroom 256×256 | DDIM | 11.42 | 6.23 | ~16 | -45.4% |
| Stable Diffusion 512 | DDIM | 16.56 | 14.23 | ~4 | -14.1% |
消融实验¶
| 配置 | 关键指标(FID, NFE=10) | 说明 |
|---|---|---|
| DDIM基线 | 15.69 | 无修正 |
| PAS(-AS) 不用自适应 | 120.32 | 全步修正反而恶化 |
| PAS完整 | 4.37 | 自适应搜索是关键 |
| 2个基向量 | ~5.5 | 已有显著改进 |
| 4个基向量 | 4.37 | 最优 |
| 500条轨迹训练 | ~6.0 | 少量轨迹即有效 |
| 5k条轨迹训练 | 4.37 | 最优平衡点 |
关键发现¶
- 自适应搜索是PAS成功的关键——没有它全步修正反而严重恶化
- 4个基向量足以跨越采样轨迹空间(与PCA累积方差分析一致)
- 仅500条轨迹即可获得显著改善,5k条为最优
- PAS可与Teleportation (TP) 叠加使用:DDIM+TP+PAS在CIFAR10上NFE=10时FID低至3.16
- 在Stable Diffusion上PAS+DDIM超过了DPM-Solver-v3等SOTA求解器
- 学习率和tolerance等超参数对DDIM修正不敏感,对iPNDM需微调
亮点与洞察¶
- "约10个参数"的标题极具冲击力——12个标量可以硬编码进推理代码,零额外存储开销
- PCA的使用将几何洞察转化为实用算法——观察到低维子空间特性并巧妙利用,是理论驱动的典型范例
- S形误差曲线的发现揭示了扩散采样的内在规律——从噪声到结构的转折区误差最大,与"先轮廓后细节"的生成模式一致
- 完全保留原始ODE轨迹——不像蒸馏方法会破坏模式间插值能力,适用于需要轨迹连续性的下游任务
局限与展望¶
- 需要先生成参考轨迹做PCA(虽然成本低但仍有前置步骤)
- NFE<5时改善有限(CIFAR10上NFE=4时DDIM+PAS仍有FID 41.14)
- 对iPNDM等本身截断误差较小的求解器提升幅度有限,且超参数需更仔细调节
- 当前仅在特定时间调度下验证,对自适应时间调度的兼容性未探索
相关工作与启发¶
- 轨迹几何方法:AMED利用均值定理降维、GITS利用轨迹一致性优化调度——PAS在此基础上进一步用PCA修正方向
- 低成本训练方法:BK-SDM蒸馏小学生模型、DRS训练判别器——PAS的参数量比这些方法低多个数量级
- 与Consistency Models互补:CM学习直接映射(一步生成),PAS修正多步采样器——前者追求极致速度,后者追求中等步数质量
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 约10参数修正扩散采样,极致的参数效率创新
- 实验充分度: ⭐⭐⭐⭐⭐ 5个数据集×多种求解器×详尽消融实验
- 写作质量: ⭐⭐⭐⭐⭐ 理论动机→几何观察→算法设计→实验验证的完整叙事
- 价值: ⭐⭐⭐⭐⭐ 极低成本的通用扩散采样加速方案,实用价值高
相关论文¶
- [NeurIPS 2025] Distribution Learning Meets Graph Structure Sampling
- [ICLR 2026] RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling
- [NeurIPS 2025] Stable Coresets via Posterior Sampling: Aligning Induced and Full Loss Landscapes
- [AAAI 2026] Self-Correction Distillation for Structured Data Question Answering
- [AAAI 2026] 10 Open Challenges Steering the Future of Vision-Language-Action Models