Stochastic Self-Guidance for Training-Free Enhancement of Diffusion Models¶

会议: ICLR2026 arXiv: 2508.12880 代码: 项目页领域: image_generation 关键词: 扩散模型, Classifier-Free Guidance, 子网络, 随机block-dropping, 自引导, 文生图, 文生视频

一句话总结¶

本文提出S²-Guidance，通过在去噪过程中随机丢弃transformer block激活子网络作为弱模型进行自引导，无需额外训练即可修正CFG的次优预测，在文生图和文生视频任务上一致超越CFG及其他高级引导策略。

背景与动机¶

CFG是条件生成的基石：Classifier-Free Guidance通过外推条件与无条件预测来增强生成质量，已成为扩散模型的标准做法。
CFG存在固有缺陷：实证分析表明CFG产生的结果与真实分布存在偏差，导致语义不一致和细节丢失。
弱模型引导方向有前景：Autoguidance等工作发现用退化版模型引导可改善CFG，但需要额外训练弱模型，对大规模预训练模型不可行。
手动修改网络结构泛化性差：SEG等方法通过修改attention区域模拟弱模型，但依赖经验性的超参调节，且针对特定任务设计。
Transformer block存在大量冗余：DiT等主流架构中不同block的输出高度相似，暗示子网络可替代完整模型进行功能性预测。
需要通用的免训练改进方案：现有方法要么需训练弱模型、要么依赖任务特定修改，缺乏一种简洁通用的方案。

方法详解¶

第一步：分析CFG的次优性¶

在高斯混合分布toy example上验证CFG的问题——虽然改善了条件生成，但分布模式发生偏移（mode shift），2D情况下样本会散布到非目标区域。CIFAR-10上的t-SNE分析进一步证实CFG存在严重的分布坍缩现象。

第二步：Naive S²-Guidance¶

核心思想是利用模型自身的子网络作为弱模型：

\[\tilde{D}_\theta^\lambda(x_t|c) = D_\theta(x_t|\phi) + \lambda(D_\theta(x_t|c) - D_\theta(x_t|\phi)) - \frac{\omega}{N}\sum_{i=1}^N(\hat{D}_\theta(x_t|c, \mathbf{m}_i) - D_\theta(x_t|c))\]

通过二值掩码 \(\mathbf{m}\) 随机丢弃部分transformer block，构建子网络预测 \(\hat{D}_\theta\)
子网络预测与完整模型预测的偏差作为自引导信号
每步采样N个不同掩码，取平均引导信号
ω控制自引导强度（S²Scale）

第三步：简化为S²-Guidance¶

关键发现：在合理的drop范围内，不同block的丢弃都能一致引导模型趋向理想分布。因此简化为每个时间步仅进行一次随机block-dropping：

\[\tilde{D}_\theta^\lambda(x_t|c) = D_\theta(x_t|\phi) + \lambda(D_\theta(x_t|c) - D_\theta(x_t|\phi)) - \omega(\hat{D}_\theta(x_t|c, \mathbf{m}_t) - D_\theta(x_t|c))\]

关键设计选择¶

保护关键block：排除结构关键的block（首block等），仅在非关键block中随机丢弃
Drop比例约10%：实验验证drop约10%的block性能最佳
应用区间：在去噪过程中间80%的噪声水平范围内应用效果最优
动态多样性：不同时间步独立采样掩码，比固定drop单个block更鲁棒

实验关键数据¶

表1：文生图HPSv2.1与T2I-CompBench对比¶

模型	方法	HPSv2.1 Avg↑	Color↑	Shape↑	Texture↑	Qalign(HPSv2.1)↑
SD3	CFG	30.48	53.61	51.20	52.45	4.66
SD3	CFG-Zero	30.78	52.70	52.84	53.37	4.66
SD3	SEG	30.39	58.20	57.68	57.17	4.33
SD3	S²-Guidance	31.09	59.63	58.71	56.77	4.65
SD3.5	CFG	30.82	51.29	47.71	47.39	4.63
SD3.5	S²-Guidance	31.56	57.57	51.23	50.13	4.70

在HPSv2.1所有维度上均取得最佳，T2I-CompBench的Color和Shape上大幅领先。

表2：ImageNet 256×256 类条件生成¶

方法	IS↑	FID↓
Baseline	125.13	9.41
CFG	258.09	2.15
CFG-Zero	258.87	2.10
S²-Guidance	259.12	2.03

表3：VBench文生视频对比（Wan模型）¶

模型	方法	Total↑	Quality↑	Semantic↑
Wan-1.3B	CFG	80.29	84.32	64.16
Wan-1.3B	CFG-Zero	80.71	84.51	65.53
Wan-1.3B	S²-Guidance	80.93	84.74	65.70
Wan-14B	CFG	82.65	84.88	73.76
Wan-14B	S²-Guidance	82.84	84.89	74.65

在1.3B和14B模型上均取得最高总分，验证了方法的通用性。

计算开销¶

运行时间：相比CFG增加约40%（29.2s → 40.2s）
峰值显存：不变（子网络与完整模型顺序执行）
S²-Guidance 20步的HPS Score超过CFG 60步，性能-效率前沿更优

亮点¶

免训练、即插即用：无需额外训练弱模型，直接利用模型自身的子网络redundancy，适配任意DiT架构。
理论直觉清晰：从Gaussian mixture的闭式分析出发，逐步过渡到真实数据，论证链条完整。
方法极简高效：每步仅需一次额外前向传播（drop约10% block），显存无增加。
覆盖多模态任务：在类条件图像生成、T2I、T2V三大任务上均一致提升，跨SD3/SD3.5/Wan等多个模型验证。
动态多样性优于固定策略：随机drop的时变多样性自然避免了固定弱模型贯穿整个去噪过程的局限。

局限性 / 可改进方向¶

40%计算开销：虽然显存不变，但每步额外一次前向传播在大规模部署中仍有成本。
超参ω需手动设定：S²Scale的最优值可能因模型和任务不同而变化，较大ω会导致过度调整。
block-dropping启发式设计：排除关键block和确定drop范围仍依赖经验分析，缺乏自动化选择机制。
对非DiT架构的适用性未验证：主要在Transformer-based扩散模型上测试，UNet等架构是否适用存疑。
提升幅度在强模型上收敛：Wan-14B相比1.3B的提升更小，离SOTA越近边际收益递减。

与相关工作的对比¶

方法	需训练?	通用性	核心机制	与S²-Guidance对比
CFG	×	高	条件-无条件外推	存在mode shift和分布坍缩
Autoguidance	✓	低	训练退化版弱模型	需额外训练，选择弱模型困难
SEG	×	中	修改attention区域	任务特定，超参敏感，美学分数下降
CFG++	×	高	流形约束	部分指标反而低于原始CFG
CFG-Zero	×	高	零初始化校正	表现接近但未触及弱模型引导方向
S²-Guidance	×	高	随机block-dropping自引导	通用、免训练、效果最优

评分¶

新颖性: ⭐⭐⭐⭐ — 随机block-dropping作为弱模型的洞察新颖且自然
实验充分度: ⭐⭐⭐⭐⭐ — toy example→ImageNet→T2I→T2V全面覆盖，消融充分
写作质量: ⭐⭐⭐⭐ — 从toy到real的论证层层递进，图示直观
价值: ⭐⭐⭐⭐ — 即插即用的通用扩散模型增强方案，实用性强