DyWeight: Dynamic Gradient Weighting for Few-Step Diffusion Sampling¶

日期: 2026-03-12
arXiv: 2603.11607
代码: GitHub
机构: 浙江大学、西湖大学 AGI Lab、同济大学、中国科学技术大学
领域: 图像生成 / 扩散模型加速
关键词: diffusion sampling, ODE solver, dynamic weighting, few-step, distillation-free

一句话总结¶

提出 DyWeight，一种基于学习的多步 ODE 求解器，通过放松经典数值约束（∑w≠1）实现动态梯度加权 + 隐式时间校准（time shifting & scaling），将梯度聚合与步长调节隐式耦合，仅需末端监督即可单轮优化——CIFAR-10 上 5 NFE 达到 3.02 FID（iPNDM: 7.77, S4S-Alt: 3.73），FLUX.1-dev 上全面超越 DPM-Solver++ 和 iPNDM。

研究背景与动机¶

领域现状: 扩散模型生成质量优异但采样慢（需要数百次函数评估）。多步 ODE 求解器（DPM-Solver++, iPNDM）通过复用历史梯度加速采样，但其系数是手工设计的固定值。
现有痛点:
- 经典求解器的系数基于平稳性假设（相邻时间步梯度统计相似），但扩散采样动态高度非平稳——固定权重无法适应变化
- 少步采样时大步长导致严重截断误差，经典小步长假设失效
- 现有学习型求解器（S4S, DLMS, DSS）采用显式解耦范式——独立参数化时间表和系数，导致优化景观复杂（如 S4S-Alt 需要 K=8 的双层循环优化）
核心 idea: 放松 ∑w=1 约束，让权重既做梯度聚合（归一化部分）又做隐式时间平移（非归一化部分），将困难的联合优化问题转化为高效的单轮学习。

方法详解¶

1. 动态梯度加权（Dynamic Gradient Weighting）¶

传统多步求解器用固定系数聚合历史梯度，约束 ∑w=1 以保证数值精度
DyWeight 放松此约束，允许权重自由学习——归一化部分自适应聚合梯度，非归一化的权重和隐式调整宏观积分边界（time shifting）

2. 时间校准机制（Time Calibration）¶

隐式时间平移（Time Shifting）: 通过放松权重约束实现，动态调整有效步长；实验表明（Fig. 4）time shifting 将训练梯度方差稳定在 1.0 附近，显著改善收敛
时间缩放（Time Scaling）: 在微观层面调整送入神经网络的查询时间，修正大步长导致的噪声预期不对齐
两者共同消除数值时间线与网络内部去噪动态的错位

3. 无数据蒸馏优化¶

教师-学生框架：35 步 iPNDM 作为教师，生成 10k 样本对
末端监督（endpoint supervision）：只约束最终输出匹配，允许中间轨迹自由偏离——比路径监督（DLMS, DSS）更灵活
像素空间用 Inception 特征空间 L2 距离，潜空间直接用 L2 距离
用 Adams-Bashforth 系数初始化提供强归纳偏置，仅 ~600 张图即可获得显著增益
单轮优化，无需复杂的交替策略

实验关键数据¶

Table 1: 像素空间 FID↓（50k 样本）¶

数据集	NFE	DyWeight	S4S-Alt	iPNDM	DPM-Solver++
CIFAR-10	3	8.16	16.95	24.55	55.76
CIFAR-10	5	3.02	3.73	7.77	9.94
CIFAR-10	9	2.13	2.31	2.83	2.99
FFHQ	5	5.85	6.25	13.80	13.47
AFHQv2	3	9.16	14.71	—	35.05
ImageNet64	5	6.30	—	15.54	16.87

Table 2: FLUX.1-dev 文本到图像（MS-COCO 512×512）¶

NFE	指标	DyWeight	DPM-Solver++	iPNDM
5	FID↓	21.02	21.81	25.03
7	FID↓	20.69	22.18	22.22
5	CLIP↑	26.73	26.38	26.37
7	CLIP↑	26.49	26.20	26.17

Table 3: FLUX.1-dev DrawBench（NFE=7）¶

ImageReward↑: DyWeight 0.921 vs DPM-Solver++ 0.863 vs iPNDM 0.852
HPSv2.1↑: DyWeight 0.288 vs DPM-Solver++ 0.286

消融实验关键发现¶

时间校准缺一不可: 去掉 time shifting 或 time scaling 均导致性能下降，同时去掉则大幅退化
最优历史阶数 K=3: K 从 1→3 持续提升，K=N（用全部历史）反而因旧梯度噪声积累而退化
训练极轻量: CIFAR-10 约 3 分钟（2×RTX 4090），ImageNet-64 约 5 分钟（8×RTX 4090），LSUN-Bedroom 约 9 分钟（8×H100）
对教师求解器不敏感: 无论用 iPNDM/DPM-Solver-2/Heun 作教师，最终性能相当

亮点与洞察¶

核心洞察：经典求解器的 ∑w=1 约束在少步采样下并非最优，放松后隐式获得时间调节能力——一个简洁优雅的设计
末端监督 > 路径监督：允许中间轨迹自由偏离，反而能找到更高效的采样路径
在 FLUX.1-dev 等大规模 flow-matching 模型上也有效，且在 DrawBench 分布外 prompt 上泛化良好——说明学到的是通用求解器动态而非过拟合训练分布
与蒸馏方法不同，DyWeight 不修改底层模型，推理时无额外开销——即插即用
隐式耦合 vs 显式解耦：一个 relaxation 同时解决了梯度聚合和步长调节两个问题，避免了 S4S 那样的多轮双层优化

评分¶

新颖性: ⭐⭐⭐⭐ 放松权重约束实现隐式耦合的 idea 简洁深刻
实验充分度: ⭐⭐⭐⭐⭐ 6 个像素/潜空间数据集 + FLUX.1 + DrawBench 泛化 + 完整消融
价值: ⭐⭐⭐⭐ 训练代价极低的即插即用少步采样加速，实用性强