跳转至

Rectified-CFG++ for Flow Based Models

会议: NeurIPS 2025
arXiv: 2510.07631
作者: Shreshth Saini, Shashank Gupta, Alan C. Bovik (UT Austin)
代码: rectified-cfgpp.github.io
领域: object_detection
关键词: Classifier-Free Guidance, Rectified Flow, 文本到图像生成, 预测-校正采样, 流模型

一句话总结

针对Rectified Flow模型中标准CFG导致的离流形漂移问题,提出Rectified-CFG++——一种自适应预测-校正引导策略,通过条件流预测+时间调度插值校正替代外推式引导,在Flux/SD3/SD3.5/Lumina等大规模模型上全面超越标准CFG。

研究背景与动机

问题背景

Classifier-Free Guidance (CFG) 是当前扩散模型中控制条件生成质量的核心技术,通过线性外推条件与无条件速度场来增强文本对齐。然而,Rectified Flow (RF) 模型因采用确定性ODE积分(无随机正则化),CFG的外推特性会导致采样轨迹偏离学习到的数据流形,产生过饱和、结构扭曲、文本错误等视觉伪影。

已有工作的不足

  • 标准CFG: 在RF模型中直接使用外推式组合 \(\hat{v}_\omega = (1-\omega)v^u + \omega v^c\)\(\omega \geq 1\)),将轨迹推离流形 \(\mathcal{M}_t\)
  • CFG++: 为扩散模型设计的流形约束引导,未针对RF几何结构优化
  • APG (Analytical Posterior Guidance): 部分缓解伪影,但在细节或几何精度上有妥协
  • CFG-Zero★: 提供有限改进,仍受外推本质限制
  • 上述方法均缺乏流模型专用的理论保证和几何感知设计

核心动机

RF模型的几何结构天然适合插值而非外推。设计一种利用条件流的确定性传输路径、以插值方式融入引导信号的采样策略,可以在保持流形一致性的同时实现高质量条件生成。

方法详解

核心思想:预测-校正替代外推

标准CFG的更新为外推式:\(x_{t-\Delta t} = x_t + \Delta t(v^u_t + \omega \Delta v^\theta_t)\),其中 \(\Delta v^\theta_t = v^c_t - v^u_t\)。这种外推在确定性ODE中缺乏随机噪声的正则化,容易发散。

Rectified-CFG++ 用三步替代:

Step 1: 条件流预测(Predictor)

使用纯条件速度场 \(v^c_t\) 进行半步预测,将样本沿条件流形推进:

\[\tilde{x}_{t-\Delta t/2} \leftarrow x_t + \frac{\Delta t}{2} v^c_t\]

关键在于:使用 \(v^c_t\) 而非 \(v^u_t\) 或CFG混合速度,确保轨迹从一开始就锚定在目标条件子空间流形上,避免早期偏离。

Step 2: 引导差异校正(Corrector via Guidance Difference)

在预测的中间点 \(\tilde{x}_{t-\Delta t/2}\) 处,分别计算条件和无条件速度场:

\[v^c_{t-\Delta t/2} \leftarrow v_\theta(\tilde{x}_{t-\Delta t/2}, t-\Delta t/2, y)$$ $$v^u_{t-\Delta t/2} \leftarrow v_\theta(\tilde{x}_{t-\Delta t/2}, t-\Delta t/2, \varnothing)\]

在中间预测点评估引导差异 \(\Delta v^\theta_{t-\Delta t/2}\),比在当前点 \(x_t\) 处评估更准确——尤其当速度场快速变化时。

Step 3: 插值式更新(Interpolative Update)

最终有效速度以条件方向为锚点,加上时间调度的引导校正:

\[\hat{v}_{\lambda t} \leftarrow v^c_t + \alpha(t)(v^c_{t-\Delta t/2} - v^u_{t-\Delta t/2})\]

其中调度函数 \(\alpha(t) = \lambda_{\max}(1-t)^\gamma\)\(\lambda_{\max} > 0, \gamma \geq 0\)。随后用 \(\hat{v}_{\lambda t}\) 执行标准ODE更新。

理论保证

Lemma 3.1 (引导方向稳定性): 在Lipschitz连续假设下,中间点的引导差异与当前点的差异之差为 \(O(\Delta t)\): $\(\|\Delta v^\theta_{t-\Delta t/2} - \Delta v^\theta_t(x_t)\| \leq L V_{\max} \Delta t\)$

Proposition 1 (单步扰动有界): Rectified-CFG++单步偏离纯条件流的距离严格受控: $\(\|\hat{x}_{t-1} - \tilde{x}_{t-1}\| \leq \alpha(t) B \Delta t\)$

这保证了轨迹始终位于数据流形 \(\mathcal{M}_t\) 的有界管状邻域内,邻域大小由 \(\alpha(t)\) 和引导场界 \(B\) 控制。

与CFG的关键区别

特性 标准CFG Rectified-CFG++
引导方式 外推(extrapolation) 插值(interpolation)
基准速度 无条件 \(v^u_t\) 条件 \(v^c_t\)
引导评估点 当前点 \(x_t\) 中间预测点 \(\tilde{x}_{t-\Delta t/2}\)
流形保持 无保证,易漂移 理论保证有界邻域
额外网络/训练

实验关键数据

实验1:MS-COCO 10K 多模型综合评测

在四个主流RF模型上,Rectified-CFG++ 全面对比标准CFG:

模型 引导方法 FID↓ CLIP↑ Aesthetic↑ ImageReward↑ PickScore↑ HPSv2↑
Lumina CFG 26.93 0.3511 5.8226 1.0924 0.5867 0.2797
Lumina Rect-CFG++ 22.49 0.3464 5.7755 0.9611 0.6133 0.3004
SD3 CFG 23.89 0.3439 5.5465 0.9812 0.4408 0.2751
SD3 Rect-CFG++ 23.39 0.3471 5.6529 1.0009 0.5591 0.2897
SD3.5 CFG 20.29 0.3506 6.155 1.0487 0.4923 0.2933
SD3.5 Rect-CFG++ 20.22 0.3497 6.1651 1.0796 0.5077 0.2946
Flux-dev CFG 37.86 0.3351 4.721 1.0528 0.3248 0.2621
Flux-dev Rect-CFG++ 32.23 0.3493 5.3251 0.948 0.6752 0.2996

Flux-dev上FID从37.86降至32.23(降幅14.9%),PickScore从0.3248提升至0.6752(翻倍),说明标准CFG在Flux上伪影特别严重;Rectified-CFG++的改善幅度最大。

实验2:引导策略对比(MS-COCO 1K, SD3.5)

引导方法 FID↓ ImageReward↑ CLIP↑ HPSv2↑
无引导 77.30 0.3852 0.3260 0.2421
CFG 67.71 1.0530 0.3515 0.2941
CFG-Zero★ 68.39 0.9947 0.3458 0.2879
APG 67.23 1.0748 0.3513 0.2935
Rect-CFG++ 67.15 1.0845 0.3506 0.2959

Rectified-CFG++在FID、ImageReward、HPSv2三项上均最优,CLIP仅略低于CFG。

T2I-CompBench 组合生成评测

模型 Color↑ Shape↑ Texture↑ Spatial↑
Flux CFG 0.6132 0.4152 0.5928 0.2488
Flux Rect-CFG++ 0.7728 0.5018 0.6705 0.2790
SD3 CFG 0.7658 0.5698 0.7270 0.3199
SD3 Rect-CFG++ 0.8041 0.5778 0.7362 0.3306

Flux上Color属性从0.6132提升至0.7728(+26%),说明CFG在Flux上的颜色偏移问题被有效修复。

消融实验:组件贡献(MS-COCO 1K, SD3.5)

配置 FID↓ CLIP↑ HPSv2↑ Aesthetic↑
用无条件速度做预测 91.12 0.1439 0.1870 6.1049
无Predictor 73.70 0.3410 0.2969 6.1064
无Corrector 74.65 0.3414 0.2975 6.1047
完整Rect-CFG++ 72.97 0.3446 0.2995 6.1587

用无条件速度做预测时CLIP骤降至0.14,证明条件预测步是方法的核心。

计算效率

在相似运行时间下(SD3.5, 512x512),Rectified-CFG++ 用20步NFE达到FID 74.47,标准CFG用28步NFE仅达到85.82。实际FLOPs几乎相同,运行时间差异约0.04秒。

亮点

  • 原理简洁优雅:用插值替代外推这一核心直觉清晰,预测-校正框架自然地将条件锚定和引导校正解耦,无需额外网络或训练
  • 理论完备:提供了流形一致性和轨迹有界性的严格数学证明,是少有的兼具理论和实验的引导方法
  • 即插即用(Drop-in):无需训练、无需修改模型权重、几乎无额外计算,可直接替换现有RF模型中的CFG模块
  • 文本渲染显著改善:在图像内文字生成任务上表现突出,这是扩散模型的已知难点
  • 全面验证:覆盖4个大型模型、5个数据集、6+指标、用户研究,实验设计严谨

局限与展望

  • 每步多一次前向传播:预测步需要额外的条件速度场评估,虽然总步数可减少,但单步成本增加约1倍
  • 超参数引入:论文声称"parameter-free beyond guidance scale",但实际上调度函数 \(\alpha(t) = \lambda_{\max}(1-t)^\gamma\) 引入了两个额外超参
  • 仅验证文本到图像:未在视频生成、3D生成等流模型的其他应用中验证
  • Lumina上部分指标不如CFG:CLIP、Aesthetic、ImageReward在Lumina上反而下降,说明方法不总是全面占优
  • 领域分类不准:本文是生成模型/采样方法论文,与object_detection领域无关

与相关工作的对比

  • CFG (Ho & Salimans 2022):外推式引导的原始方法,在RF模型中产生严重伪影;Rectified-CFG++用插值替代外推根本性解决
  • CFG++ (Chung et al. 2024):为扩散SDE设计的流形约束方法,依赖随机正则化,不适用于确定性RF
  • APG (Sadat et al. 2024):分析后验引导,部分缓解伪影但在细节上妥协;Table 3显示Rectified-CFG++在FID/ImageReward/HPSv2上均优于APG
  • CFG-Zero★:通过零化初始引导减少早期漂移,但后期仍受外推影响;性能整体不如Rectified-CFG++
  • ReCFG:使用引导差异的相关工作,但Rectified-CFG++的预测-校正框架和中间点评估是关键差异

评分

  • 新颖性: ⭐⭐⭐⭐ — 插值替代外推的核心思想简单但有效,预测-校正框架设计合理
  • 实验充分度: ⭐⭐⭐⭐⭐ — 4个模型、多个数据集、6+指标、消融、用户研究,非常全面
  • 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,图表丰富,结构完整
  • 价值: ⭐⭐⭐⭐ — 即插即用的实用性强,对RF模型生态有直接贡献

相关论文