Rectified-CFG++ for Flow Based Models¶
会议: NeurIPS 2025
arXiv: 2510.07631
作者: Shreshth Saini, Shashank Gupta, Alan C. Bovik (UT Austin)
代码: rectified-cfgpp.github.io
领域: object_detection
关键词: Classifier-Free Guidance, Rectified Flow, 文本到图像生成, 预测-校正采样, 流模型
一句话总结¶
针对Rectified Flow模型中标准CFG导致的离流形漂移问题,提出Rectified-CFG++——一种自适应预测-校正引导策略,通过条件流预测+时间调度插值校正替代外推式引导,在Flux/SD3/SD3.5/Lumina等大规模模型上全面超越标准CFG。
研究背景与动机¶
问题背景¶
Classifier-Free Guidance (CFG) 是当前扩散模型中控制条件生成质量的核心技术,通过线性外推条件与无条件速度场来增强文本对齐。然而,Rectified Flow (RF) 模型因采用确定性ODE积分(无随机正则化),CFG的外推特性会导致采样轨迹偏离学习到的数据流形,产生过饱和、结构扭曲、文本错误等视觉伪影。
已有工作的不足¶
- 标准CFG: 在RF模型中直接使用外推式组合 \(\hat{v}_\omega = (1-\omega)v^u + \omega v^c\)(\(\omega \geq 1\)),将轨迹推离流形 \(\mathcal{M}_t\)
- CFG++: 为扩散模型设计的流形约束引导,未针对RF几何结构优化
- APG (Analytical Posterior Guidance): 部分缓解伪影,但在细节或几何精度上有妥协
- CFG-Zero★: 提供有限改进,仍受外推本质限制
- 上述方法均缺乏流模型专用的理论保证和几何感知设计
核心动机¶
RF模型的几何结构天然适合插值而非外推。设计一种利用条件流的确定性传输路径、以插值方式融入引导信号的采样策略,可以在保持流形一致性的同时实现高质量条件生成。
方法详解¶
核心思想:预测-校正替代外推¶
标准CFG的更新为外推式:\(x_{t-\Delta t} = x_t + \Delta t(v^u_t + \omega \Delta v^\theta_t)\),其中 \(\Delta v^\theta_t = v^c_t - v^u_t\)。这种外推在确定性ODE中缺乏随机噪声的正则化,容易发散。
Rectified-CFG++ 用三步替代:
Step 1: 条件流预测(Predictor)¶
使用纯条件速度场 \(v^c_t\) 进行半步预测,将样本沿条件流形推进:
关键在于:使用 \(v^c_t\) 而非 \(v^u_t\) 或CFG混合速度,确保轨迹从一开始就锚定在目标条件子空间流形上,避免早期偏离。
Step 2: 引导差异校正(Corrector via Guidance Difference)¶
在预测的中间点 \(\tilde{x}_{t-\Delta t/2}\) 处,分别计算条件和无条件速度场:
在中间预测点评估引导差异 \(\Delta v^\theta_{t-\Delta t/2}\),比在当前点 \(x_t\) 处评估更准确——尤其当速度场快速变化时。
Step 3: 插值式更新(Interpolative Update)¶
最终有效速度以条件方向为锚点,加上时间调度的引导校正:
其中调度函数 \(\alpha(t) = \lambda_{\max}(1-t)^\gamma\),\(\lambda_{\max} > 0, \gamma \geq 0\)。随后用 \(\hat{v}_{\lambda t}\) 执行标准ODE更新。
理论保证¶
Lemma 3.1 (引导方向稳定性): 在Lipschitz连续假设下,中间点的引导差异与当前点的差异之差为 \(O(\Delta t)\): $\(\|\Delta v^\theta_{t-\Delta t/2} - \Delta v^\theta_t(x_t)\| \leq L V_{\max} \Delta t\)$
Proposition 1 (单步扰动有界): Rectified-CFG++单步偏离纯条件流的距离严格受控: $\(\|\hat{x}_{t-1} - \tilde{x}_{t-1}\| \leq \alpha(t) B \Delta t\)$
这保证了轨迹始终位于数据流形 \(\mathcal{M}_t\) 的有界管状邻域内,邻域大小由 \(\alpha(t)\) 和引导场界 \(B\) 控制。
与CFG的关键区别¶
| 特性 | 标准CFG | Rectified-CFG++ |
|---|---|---|
| 引导方式 | 外推(extrapolation) | 插值(interpolation) |
| 基准速度 | 无条件 \(v^u_t\) | 条件 \(v^c_t\) |
| 引导评估点 | 当前点 \(x_t\) | 中间预测点 \(\tilde{x}_{t-\Delta t/2}\) |
| 流形保持 | 无保证,易漂移 | 理论保证有界邻域 |
| 额外网络/训练 | 否 | 否 |
实验关键数据¶
实验1:MS-COCO 10K 多模型综合评测¶
在四个主流RF模型上,Rectified-CFG++ 全面对比标准CFG:
| 模型 | 引导方法 | FID↓ | CLIP↑ | Aesthetic↑ | ImageReward↑ | PickScore↑ | HPSv2↑ |
|---|---|---|---|---|---|---|---|
| Lumina | CFG | 26.93 | 0.3511 | 5.8226 | 1.0924 | 0.5867 | 0.2797 |
| Lumina | Rect-CFG++ | 22.49 | 0.3464 | 5.7755 | 0.9611 | 0.6133 | 0.3004 |
| SD3 | CFG | 23.89 | 0.3439 | 5.5465 | 0.9812 | 0.4408 | 0.2751 |
| SD3 | Rect-CFG++ | 23.39 | 0.3471 | 5.6529 | 1.0009 | 0.5591 | 0.2897 |
| SD3.5 | CFG | 20.29 | 0.3506 | 6.155 | 1.0487 | 0.4923 | 0.2933 |
| SD3.5 | Rect-CFG++ | 20.22 | 0.3497 | 6.1651 | 1.0796 | 0.5077 | 0.2946 |
| Flux-dev | CFG | 37.86 | 0.3351 | 4.721 | 1.0528 | 0.3248 | 0.2621 |
| Flux-dev | Rect-CFG++ | 32.23 | 0.3493 | 5.3251 | 0.948 | 0.6752 | 0.2996 |
Flux-dev上FID从37.86降至32.23(降幅14.9%),PickScore从0.3248提升至0.6752(翻倍),说明标准CFG在Flux上伪影特别严重;Rectified-CFG++的改善幅度最大。
实验2:引导策略对比(MS-COCO 1K, SD3.5)¶
| 引导方法 | FID↓ | ImageReward↑ | CLIP↑ | HPSv2↑ |
|---|---|---|---|---|
| 无引导 | 77.30 | 0.3852 | 0.3260 | 0.2421 |
| CFG | 67.71 | 1.0530 | 0.3515 | 0.2941 |
| CFG-Zero★ | 68.39 | 0.9947 | 0.3458 | 0.2879 |
| APG | 67.23 | 1.0748 | 0.3513 | 0.2935 |
| Rect-CFG++ | 67.15 | 1.0845 | 0.3506 | 0.2959 |
Rectified-CFG++在FID、ImageReward、HPSv2三项上均最优,CLIP仅略低于CFG。
T2I-CompBench 组合生成评测¶
| 模型 | Color↑ | Shape↑ | Texture↑ | Spatial↑ |
|---|---|---|---|---|
| Flux CFG | 0.6132 | 0.4152 | 0.5928 | 0.2488 |
| Flux Rect-CFG++ | 0.7728 | 0.5018 | 0.6705 | 0.2790 |
| SD3 CFG | 0.7658 | 0.5698 | 0.7270 | 0.3199 |
| SD3 Rect-CFG++ | 0.8041 | 0.5778 | 0.7362 | 0.3306 |
Flux上Color属性从0.6132提升至0.7728(+26%),说明CFG在Flux上的颜色偏移问题被有效修复。
消融实验:组件贡献(MS-COCO 1K, SD3.5)¶
| 配置 | FID↓ | CLIP↑ | HPSv2↑ | Aesthetic↑ |
|---|---|---|---|---|
| 用无条件速度做预测 | 91.12 | 0.1439 | 0.1870 | 6.1049 |
| 无Predictor | 73.70 | 0.3410 | 0.2969 | 6.1064 |
| 无Corrector | 74.65 | 0.3414 | 0.2975 | 6.1047 |
| 完整Rect-CFG++ | 72.97 | 0.3446 | 0.2995 | 6.1587 |
用无条件速度做预测时CLIP骤降至0.14,证明条件预测步是方法的核心。
计算效率¶
在相似运行时间下(SD3.5, 512x512),Rectified-CFG++ 用20步NFE达到FID 74.47,标准CFG用28步NFE仅达到85.82。实际FLOPs几乎相同,运行时间差异约0.04秒。
亮点¶
- 原理简洁优雅:用插值替代外推这一核心直觉清晰,预测-校正框架自然地将条件锚定和引导校正解耦,无需额外网络或训练
- 理论完备:提供了流形一致性和轨迹有界性的严格数学证明,是少有的兼具理论和实验的引导方法
- 即插即用(Drop-in):无需训练、无需修改模型权重、几乎无额外计算,可直接替换现有RF模型中的CFG模块
- 文本渲染显著改善:在图像内文字生成任务上表现突出,这是扩散模型的已知难点
- 全面验证:覆盖4个大型模型、5个数据集、6+指标、用户研究,实验设计严谨
局限与展望¶
- 每步多一次前向传播:预测步需要额外的条件速度场评估,虽然总步数可减少,但单步成本增加约1倍
- 超参数引入:论文声称"parameter-free beyond guidance scale",但实际上调度函数 \(\alpha(t) = \lambda_{\max}(1-t)^\gamma\) 引入了两个额外超参
- 仅验证文本到图像:未在视频生成、3D生成等流模型的其他应用中验证
- Lumina上部分指标不如CFG:CLIP、Aesthetic、ImageReward在Lumina上反而下降,说明方法不总是全面占优
- 领域分类不准:本文是生成模型/采样方法论文,与object_detection领域无关
与相关工作的对比¶
- CFG (Ho & Salimans 2022):外推式引导的原始方法,在RF模型中产生严重伪影;Rectified-CFG++用插值替代外推根本性解决
- CFG++ (Chung et al. 2024):为扩散SDE设计的流形约束方法,依赖随机正则化,不适用于确定性RF
- APG (Sadat et al. 2024):分析后验引导,部分缓解伪影但在细节上妥协;Table 3显示Rectified-CFG++在FID/ImageReward/HPSv2上均优于APG
- CFG-Zero★:通过零化初始引导减少早期漂移,但后期仍受外推影响;性能整体不如Rectified-CFG++
- ReCFG:使用引导差异的相关工作,但Rectified-CFG++的预测-校正框架和中间点评估是关键差异
评分¶
- 新颖性: ⭐⭐⭐⭐ — 插值替代外推的核心思想简单但有效,预测-校正框架设计合理
- 实验充分度: ⭐⭐⭐⭐⭐ — 4个模型、多个数据集、6+指标、消融、用户研究,非常全面
- 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,图表丰富,结构完整
- 价值: ⭐⭐⭐⭐ — 即插即用的实用性强,对RF模型生态有直接贡献
相关论文¶
- [CVPR 2026] Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models
- [NeurIPS 2025] SAFE: Multitask Failure Detection for Vision-Language-Action Models
- [NeurIPS 2025] XIFBench: Evaluating Large Language Models on Multilingual Instruction Following
- [NeurIPS 2025] M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization
- [ECCV 2024] I Can't Believe It's Not Scene Flow!