Entropy Rectifying Guidance for Diffusion and Flow Models¶

会议: NeurIPS 2025
arXiv: 2504.13987
代码: 无
领域: 图像生成
关键词: diffusion models, guidance mechanism, attention energy, classifier-free guidance, flow matching

一句话总结¶

提出 Entropy Rectifying Guidance (ERG)，通过操控注意力层的 Hopfield 能量景观（温度缩放、步长调整）来获取弱预测信号，替代传统 CFG 中的无条件预测，在文本到图像、类条件和无条件生成中同时提升质量、多样性和一致性。

研究背景与动机¶

扩散模型和 flow matching 模型是当前图像生成的 SOTA 方法。Classifier-Free Guidance (CFG) 是最广泛使用的引导技术，通过结合条件和无条件预测来提升生成质量和一致性。然而 CFG 存在固有的 quality-diversity-consistency 三方权衡问题：

多样性下降：较高的引导尺度导致生成样本趋于单一
过饱和：过高的引导强度导致图像色彩过饱和
需要无条件训练：需花费训练资源在无条件生成上
不适用于无条件采样：CFG 依赖条件/无条件对比，无法用于纯无条件生成

现有改进方案如 AutoGuidance 需要额外弱模型（增加内存占用），SEG/SAG 为 U-Net 设计难以迁移到 DiT 架构。本文希望在单一模型内、无需额外训练的前提下，同时改善三个维度的性能。

方法详解¶

整体框架¶

ERG 的核心思想是：利用注意力层的 Hopfield 能量解释，通过修改注意力机制获得一个"较弱"的预测信号，然后将其与正常预测对比来实现引导。整个方法分为两个部分：

I-ERG (Image ERG)：修改去噪模型的注意力层能量景观
C-ERG (Condition ERG)：修改文本编码器的注意力层能量景观

最终的引导更新公式将正常去噪模型预测 D 与修改后的去噪模型预测 D_xi 进行加权组合，其中 w 为引导强度。D_xi 使用修改后注意力层的去噪模型，phi_c_tau 是通过修改文本编码器注意力获得的弱条件嵌入。

关键设计¶

Hopfield 能量视角的注意力操控：标准注意力可被视为 Hopfield 能量函数的 CCCP 更新。ERG 在该能量函数中引入推理时超参数，修改能量景观：

温度参数 tau：控制 softmax 注意力的锐度。tau < 1 使注意力更均匀（平滑），tau > 1 使注意力更集中（锐利）
模式匹配权重 alpha：控制状态模式匹配项相对于状态模式范数的重要性
步长 gamma：梯度下降步长，控制能量优化的幅度
迭代次数 K：能量景观优化的梯度下降步数

多步梯度下降更新（Algorithm 2）：在每个注意力层中执行 K 步梯度下降，更新 query：Q = Q - gamma * (Q - alpha * softmax(tau * beta * Q * K_T) * V)。当 alpha = gamma = tau = K = 1 时退化为标准注意力。

文本编码器操控（C-ERG）：对文本编码器（如 Llama3-8B、Flan-T5-XL）的每层自注意力引入温度缩放，降低 key-query 匹配的确定性，得到"模糊"的条件嵌入。C-ERG 在整个去噪过程中应用。

去噪模型操控（I-ERG）：仅在特定层和特定时间步（kickoff threshold kappa 之后）应用修改，避免采样早期过度惩罚负分量。

与其他方法的组合：ERG 可无缝与 CADS（条件退火扩散采样器）和 APG（自适应投影引导）组合，进一步提升性能。

损失函数 / 训练策略¶

ERG 是纯推理时方法，不需要任何训练修改或额外模型训练。所有超参数仅在推理时设定。模型使用 rectified flow-matching 训练，训练过程中两个文本编码器各自以 sqrt(0.1) 概率被禁用（约 10% 概率两者同时禁用）。

实验关键数据¶

主实验¶

文本到图像生成（COCO'14, 512 分辨率, 1.9B 参数模型）：

方法	FID	Density	Coverage	CLIPScore	VQAScore	NFE
CFG	12.81	98.24	71.12	26.45	70.15	2
APG	11.88	104.07	73.06	26.54	72.47	2
SAG*	11.68	103.58	72.74	26.81	72.16	2
ERG	13.62	120.25	73.21	26.86	73.96	2
ERG+APG	11.37	115.08	80.50	26.74	73.55	2
ERG+CADS	12.87	128.54	76.23	26.75	73.45	2

无条件生成（T2I 模型，空 prompt）：

方法	FID	Density	Coverage
No guidance	101.50	8.99	3.63
SEG*	37.75	55.56	34.79
ERG	36.25	55.84	51.59

类条件生成（ImageNet, DiT-XL/2, 512 分辨率）：

方法	FID	Density	Coverage
CFG	5.65	146.97	86.70
ERG	4.56	163.63	86.13

消融实验¶

各组件贡献分析：

C-ERG	I-ERG	gamma	FID	Density	Coverage	CLIP	VQA
x	x	x	12.81	98.24	71.12	26.45	70.15
o	x	x	13.06	109.52	72.06	26.73	73.10
o	o	x	13.62	120.25	73.21	26.86	73.96
o	o	o	13.62	123.65	74.07	26.81	74.67

C-ERG 主要提升 CLIPScore 和 VQAScore（一致性）
I-ERG 主要提升 Density 和 Coverage（质量和多样性）
多步梯度下降（K>1）未带来显著增益，默认 K=gamma=1

关键发现¶

ERG 相比 CFG，Density 提升 +22 点，VQAScore 提升 +3.8 点，同时 Coverage 也提升
ERG + APG 实现所有三个维度的 Pareto 前沿改进
在无条件生成中，Coverage 从 34.79（SEG*）跃升至 51.59，提升约 48%
tau_c < 1 提升 CLIPScore，tau_c > 1 提升 Coverage，温度参数可灵活控制多样性-一致性权衡

亮点与洞察¶

理论优雅：将注意力与 Hopfield 能量联系，为引导提供了能量景观视角的理论基础
通用性强：适用于条件/无条件/类条件生成，不受架构限制（U-Net 或 DiT 均可）
零额外训练：纯推理时方法，无需训练额外弱模型，内存开销与 CFG 相同
可组合性：与 APG、CADS 等方法正交可组合，叠加使用效果更优
NFE 不增加：每步仅需 2 次函数评估，与 CFG 相同

局限性 / 可改进方向¶

FID 指标上 ERG 单独使用略逊于 SAG*，需配合 APG 才能达到最优
超参数空间较大（alpha, gamma, tau, K + kickoff threshold kappa），需要网格搜索
未与非恒定权重调度（如 time-dependent CFG schedules）结合
实验仅在流匹配架构上验证，未测试传统 DDPM/DDIM 采样器
对哪些层应用 I-ERG 的选择需要实验确定

评分¶

创新性：4/5 - Hopfield 能量视角下的注意力操控引导，理论新颖
实用性：5/5 - 纯推理时，无训练开销，即插即用
实验充分度：4/5 - 多任务多消融，但仅限自有模型
写作质量：4/5 - 结构清晰，理论推导完整