跳转至

DyWeight: Dynamic Gradient Weighting for Few-Step Diffusion Sampling

日期: 2026-03-12
arXiv: 2603.11607
代码: GitHub
机构: 浙江大学、西湖大学 AGI Lab、同济大学、中国科学技术大学
领域: 图像生成 / 扩散模型加速
关键词: diffusion sampling, ODE solver, dynamic weighting, few-step, distillation-free

一句话总结

提出 DyWeight,一种基于学习的多步 ODE 求解器,通过放松经典数值约束(∑w≠1)实现动态梯度加权 + 隐式时间校准(time shifting & scaling),将梯度聚合与步长调节隐式耦合,仅需末端监督即可单轮优化——CIFAR-10 上 5 NFE 达到 3.02 FID(iPNDM: 7.77, S4S-Alt: 3.73),FLUX.1-dev 上全面超越 DPM-Solver++ 和 iPNDM。

研究背景与动机

  1. 领域现状: 扩散模型生成质量优异但采样慢(需要数百次函数评估)。多步 ODE 求解器(DPM-Solver++, iPNDM)通过复用历史梯度加速采样,但其系数是手工设计的固定值。

  2. 现有痛点:

    • 经典求解器的系数基于平稳性假设(相邻时间步梯度统计相似),但扩散采样动态高度非平稳——固定权重无法适应变化
    • 少步采样时大步长导致严重截断误差,经典小步长假设失效
    • 现有学习型求解器(S4S, DLMS, DSS)采用显式解耦范式——独立参数化时间表和系数,导致优化景观复杂(如 S4S-Alt 需要 K=8 的双层循环优化)
  3. 核心 idea: 放松 ∑w=1 约束,让权重既做梯度聚合(归一化部分)又做隐式时间平移(非归一化部分),将困难的联合优化问题转化为高效的单轮学习。

方法详解

1. 动态梯度加权(Dynamic Gradient Weighting)

  • 传统多步求解器用固定系数聚合历史梯度,约束 ∑w=1 以保证数值精度
  • DyWeight 放松此约束,允许权重自由学习——归一化部分自适应聚合梯度,非归一化的权重和隐式调整宏观积分边界(time shifting)

2. 时间校准机制(Time Calibration)

  • 隐式时间平移(Time Shifting): 通过放松权重约束实现,动态调整有效步长;实验表明(Fig. 4)time shifting 将训练梯度方差稳定在 1.0 附近,显著改善收敛
  • 时间缩放(Time Scaling): 在微观层面调整送入神经网络的查询时间,修正大步长导致的噪声预期不对齐
  • 两者共同消除数值时间线与网络内部去噪动态的错位

3. 无数据蒸馏优化

  • 教师-学生框架:35 步 iPNDM 作为教师,生成 10k 样本对
  • 末端监督(endpoint supervision):只约束最终输出匹配,允许中间轨迹自由偏离——比路径监督(DLMS, DSS)更灵活
  • 像素空间用 Inception 特征空间 L2 距离,潜空间直接用 L2 距离
  • 用 Adams-Bashforth 系数初始化提供强归纳偏置,仅 ~600 张图即可获得显著增益
  • 单轮优化,无需复杂的交替策略

实验关键数据

Table 1: 像素空间 FID↓(50k 样本)

数据集 NFE DyWeight S4S-Alt iPNDM DPM-Solver++
CIFAR-10 3 8.16 16.95 24.55 55.76
CIFAR-10 5 3.02 3.73 7.77 9.94
CIFAR-10 9 2.13 2.31 2.83 2.99
FFHQ 5 5.85 6.25 13.80 13.47
AFHQv2 3 9.16 14.71 35.05
ImageNet64 5 6.30 15.54 16.87

Table 2: FLUX.1-dev 文本到图像(MS-COCO 512×512)

NFE 指标 DyWeight DPM-Solver++ iPNDM
5 FID↓ 21.02 21.81 25.03
7 FID↓ 20.69 22.18 22.22
5 CLIP↑ 26.73 26.38 26.37
7 CLIP↑ 26.49 26.20 26.17

Table 3: FLUX.1-dev DrawBench(NFE=7)

  • ImageReward↑: DyWeight 0.921 vs DPM-Solver++ 0.863 vs iPNDM 0.852
  • HPSv2.1↑: DyWeight 0.288 vs DPM-Solver++ 0.286

消融实验关键发现

  • 时间校准缺一不可: 去掉 time shifting 或 time scaling 均导致性能下降,同时去掉则大幅退化
  • 最优历史阶数 K=3: K 从 1→3 持续提升,K=N(用全部历史)反而因旧梯度噪声积累而退化
  • 训练极轻量: CIFAR-10 约 3 分钟(2×RTX 4090),ImageNet-64 约 5 分钟(8×RTX 4090),LSUN-Bedroom 约 9 分钟(8×H100)
  • 对教师求解器不敏感: 无论用 iPNDM/DPM-Solver-2/Heun 作教师,最终性能相当

亮点与洞察

  • 核心洞察:经典求解器的 ∑w=1 约束在少步采样下并非最优,放松后隐式获得时间调节能力——一个简洁优雅的设计
  • 末端监督 > 路径监督:允许中间轨迹自由偏离,反而能找到更高效的采样路径
  • 在 FLUX.1-dev 等大规模 flow-matching 模型上也有效,且在 DrawBench 分布外 prompt 上泛化良好——说明学到的是通用求解器动态而非过拟合训练分布
  • 与蒸馏方法不同,DyWeight 不修改底层模型,推理时无额外开销——即插即用
  • 隐式耦合 vs 显式解耦:一个 relaxation 同时解决了梯度聚合和步长调节两个问题,避免了 S4S 那样的多轮双层优化

评分

  • 新颖性: ⭐⭐⭐⭐ 放松权重约束实现隐式耦合的 idea 简洁深刻
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 个像素/潜空间数据集 + FLUX.1 + DrawBench 泛化 + 完整消融
  • 价值: ⭐⭐⭐⭐ 训练代价极低的即插即用少步采样加速,实用性强