跳转至

Guiding Diffusion Models with Semantically Degraded Conditions

会议: CVPR2026 arXiv: 2603.10780 代码: Ming-321/Classifier-Degradation-Guidance 领域: 图像生成 关键词: Classifier-Free Guidance, 条件退化引导, 文本到图像, 扩散模型, 组合生成

一句话总结

提出 Condition-Degradation Guidance (CDG),用语义退化的条件 \(\boldsymbol{c}_{\text{deg}}\) 替代 CFG 中的空提示 \(\emptyset\),将引导从粗粒度"好 vs. 空"转变为细粒度"好 vs. 差一点"的对比,通过分层退化策略(先退化内容 token 再退化上下文聚合 token)构建自适应负样本,在 SD3/FLUX/Qwen-Image 等模型上即插即用地提升组合生成精度,几乎零额外开销。

研究背景与动机

  1. CFG 的核心地位与局限:Classifier-Free Guidance (CFG) 是现代文本到图像模型的基石,但其依赖语义空洞的空提示 \(\emptyset\),在复杂组合任务(文字渲染、属性绑定、空间关系)中表现不佳。
  2. 引导信号的几何纠缠\(\boldsymbol{c}\)\(\emptyset\) 之间语义差距过大,导致引导信号在去噪主方向上产生干扰分量,混合了内容生成与风格/结构信息。
  3. 现有改进的局限:过程纠正类方法(APG、TCFG)保留 \(\boldsymbol{c}\) vs. \(\emptyset\) 做事后修正,治标不治本;负样本改造类方法(弱模型、随机扰动、VLM 生成负样本)要么语义盲目,要么需要额外模型。
  4. 关键直觉:语义相近的对比 \(\boldsymbol{c}\) vs. \(\boldsymbol{c}_{\text{deg}}\) 可实现"共模抑制"——消去共享的去噪分量,留下纯语义修正信号。
  5. Token 的功能二分性:Transformer 文本编码器中的 token 自然分为内容 token(编码对象语义)和上下文聚合 token(padding/特殊 token,通过注意力吸收全局上下文),这一结构可指导退化策略设计。
  6. 轻量即插即用需求:实际应用需要无需训练、无需外部模型、计算开销可忽略的引导改进方案。

方法详解

整体框架

CDG 将 CFG 公式中的空提示 \(\emptyset\) 替换为语义退化的条件 \(\boldsymbol{c}_{\text{deg}}\)

\[D_\theta^{\text{CDG}}(\boldsymbol{x}_\sigma;\sigma,\boldsymbol{c}) = D_\theta(\boldsymbol{x}_\sigma;\sigma,\boldsymbol{c}) + (w-1)\big(D_\theta(\boldsymbol{x}_\sigma;\sigma,\boldsymbol{c}) - D_\theta(\boldsymbol{x}_\sigma;\sigma,\boldsymbol{c}_{\text{deg}})\big)\]

构建 \(\boldsymbol{c}_{\text{deg}}\) 的流程:① 从指定 Transformer block \(\lambda_{\text{block}}\) 提取自注意力图 → ② 建图并用 Weighted PageRank (WPR) 计算 token 重要性 → ③ 按分层退化策略生成二值 mask → ④ 对原条件与空条件做 masked interpolation。

关键设计:分层退化 (Stratified Degradation)

  • Token 功能二分:WPR 分析揭示内容 token(如 "minecraft"、"cooking")重要性得分远高于上下文聚合 token(padding、特殊 token),验证了二者编码不同粒度语义的假设。
  • Weighted PageRank 分析:将自注意力图建模为有向图,token 为节点、注意力权重为边权,通过 WPR 迭代 \(\boldsymbol{s}^{(k+1)} = \frac{A^T\boldsymbol{s}^{(k)}}{\|A^T\boldsymbol{s}^{(k)}\|_1}\) 收敛得到重要性排序。
  • 统一退化比 \(R_{\text{deg}} \in [0,2]\)\(r_{\text{content}} = \min(R_{\text{deg}}, 1.0)\)\(r_{\text{CtxAgg}} = \max(R_{\text{deg}}-1.0, 0)\)\(R_{\text{deg}} \le 1\) 时只退化内容 token(细粒度语义),\(R_{\text{deg}} > 1\) 时继续退化上下文聚合 token(粗粒度语义)。
  • 默认 \(R_{\text{deg}}=1.0\):此时所有内容 token 被退化,无需 WPR 计算,实现近零开销。
  • mask 构建与复用\(\boldsymbol{c}_{\text{deg}} = \boldsymbol{m} \odot \boldsymbol{c} + (1-\boldsymbol{m}) \odot \emptyset\),mask 仅在第一步去噪时计算一次并在后续所有步骤复用,开销可忽略。

几何解释与理论分析

作者基于流形假设,利用 SVD 从 MS-COCO 提示的条件预测中近似去噪主子空间 \(\mathcal{S}_{\boldsymbol{c}}(t)\),并定义两个度量:

  • Geometric Decoupling(引导信号与去噪主子空间的正交性):\(\text{Decoupling}(\mathcal{S}_g, \mathcal{S}_c) = \frac{1}{k}\sum_{i=1}^k \sin^2(\theta_i)\),值趋近 1 表示近乎正交。CDG 在整个生成过程中保持近乎完美的正交性,CFG 在早期阶段严重纠缠。
  • Interference Energy Ratio(引导信号在去噪子空间的能量占比):\(\text{Interference}(\Delta\boldsymbol{\varepsilon}) = \frac{\|P_{\mathcal{S}_c(t)}\Delta\boldsymbol{\varepsilon}\|_F^2}{\|\Delta\boldsymbol{\varepsilon}\|_F^2}\),值越低干扰越小。CDG 干扰能量极低,CFG 有显著能量浪费在错位方向。
  • 共模抑制效应\(\boldsymbol{c}\)\(\boldsymbol{c}_{\text{deg}}\) 作为语义邻居共享相似的法方向分量,差分 \(\Delta\boldsymbol{\varepsilon}_{\text{CDG}} \propto \nabla_{z_t}\log\frac{p_t(z_t|\boldsymbol{c})}{p_t(z_t|\boldsymbol{c}_{\text{deg}})}\) 自然消去共享分量,保留纯语义修正信号。CFG 中 \(\boldsymbol{c}\)\(\emptyset\) 语义距离过远无法实现此效果。

实验

主实验(MS-COCO 2017 验证集)

模型 方法 FID ↓ CLIP Score ↑ Aesthetic ↑ VQA Score ↑
SD3 CFG 35.69 31.73 5.66 91.44
SD3 CDG 34.05 32.00 5.70 92.40
SD3 CADS 36.16 31.72 5.65 91.44
SD3 PAG 50.60 30.15 5.52 81.27
SD3.5 CFG 34.56 31.85 6.21 91.94
SD3.5 CDG 33.07 31.96 6.26 92.61
FLUX.1 CFG 38.55 31.20 6.06 90.31
FLUX.1 CDG 37.11 31.21 6.15 90.62
Qwen CFG 42.45 32.11 2.57 93.66
Qwen CDG 39.02 32.31 2.54 93.93

GenAI-Bench 组合推理

模型 方法 Spatial ↑ Comp ↑ Differ ↑ Univ ↑
SD3.5 CFG 79.66 73.70 75.10 72.21
SD3.5 CDG 80.69 76.06 78.74 73.13

CDG 在 Differentiation (+3.64) 和 Comparison (+2.36) 上提升最为显著,说明"好 vs. 差一点"范式在需要精细语义区分的任务上优势最大。FLUX.1 上提升较温和,与其使用 Guidance Distillation 一致。

消融实验

  • 分层退化是核心驱动:分层变体 VQA 比非分层高 5.9–12.2 分、FID 低 0.9–16.8 分。
  • WPR 非必要但提供理论支撑:分层框架内 WPR 排序与随机排序性能相当(FID 33.89 vs. 34.17),WPR 主要提供确定性和 \(R_{\text{deg}}=1.0\) 边界的解释。
  • \(R_{\text{deg}}\) 的不对称响应:[0,1] 区间指标急剧变化(内容 token 退化),[1,2] 区间较平缓(上下文聚合 token 退化),印证功能二分假设。
  • 消融实验设计:WPR 排序 vs. 随机排序 vs. 反向排序 vs. 分层 vs. 非分层,系统性对比各组件贡献。
  • 计算效率:逐步 WPR 开销 +47.2%,一次性计算 +3.6%,默认 \(R_{\text{deg}}=1.0\) 时近零开销(跳过 WPR)。

关键发现

  • FLUX.1 上提升较小,因为其使用了 Guidance Distillation,降低了推理时引导的依赖度,进一步说明 CDG 的收益与模型对引导信号的依赖程度正相关。
  • Qwen-Image 用 <|im_end|> 而非 padding 作为上下文聚合器,CDG 仍然有效,验证了分层退化策略对不同 token 类型架构的泛化性。
  • CDG 在 Differentiation 和 Comparison 等需要精细语义区分的任务上提升最大,与"好 vs. 差一点"对比范式的设计初衷一致。
  • CDG 可与 PAG 等正交方法组合使用,也兼容 image-to-image 和 ControlNet 等下游应用。

亮点

  • 揭示 Transformer 文本编码器中 content token 与 context-aggregating token 的功能二分性,为引导信号设计提供理论基础
  • 通过几何分析(Decoupling、Interference Energy)给出了 CDG 优于 CFG 的直观且可量化的解释
  • 即插即用、无需训练、无需外部模型,默认配置下几乎零开销,实际部署友好
  • 跨四种不同架构(SD3、SD3.5、FLUX.1、Qwen-Image)一致提升,验证方法的通用性
  • \(R_{\text{deg}}\) 提供了可解释的连续控制空间:[0,1] 控制细粒度语义,[1,2] 控制粗粒度上下文
  • 消融实验设计巧妙,CFG* 实验直接可视化了退化条件的语义残留,增强了方法的可解释性
  • 与 PAG 等方法正交可组合,支持 img2img 和 ControlNet 等扩展场景

局限性

  • 在已使用 Guidance Distillation 的模型(如 FLUX.1)上提升有限,说明方法对推理时引导依赖度低的模型效果受限
  • \(R_{\text{deg}}\) 的最优值在不同模型间可能需要微调,虽然默认 1.0 在多数情况下表现良好
  • 方法假设文本编码器内存在清晰的 content/context-aggregating 二分性,对于特殊编码器架构的适用性待验证
  • 缺少对超长/超复杂提示的系统性评估
  • CFG* 验证实验主要为定性分析,缺少更严格的理论证明来阐明共模抑制的充分条件
  • 仅在 Transformer-based 扩散模型上验证,对 UNet 架构的适用性未讨论

相关工作

  • CFG 框架改进:APG(几何校正,将引导信号投影到与去噪方向正交的子空间)、TCFG(SVD 分解去噪信号),均保留空提示但做事后修正,不解决根本语义贫乏问题
  • 模型级负样本:Autoguidance 使用弱模型提供负信号、Weak-to-Strong Diffusion 利用反射机制,均需维护额外模型,部署成本高
  • 内部机制级:PAG(扰动自注意力矩阵)、SEG(平滑能量曲率),操作模型计算流而非输入,与 CDG 正交可组合使用
  • 输入级退化:ICG(随机提示替换)、CADS(非结构化高斯噪声)、SFG(空间变化负样本)、DNP(VLM 生成负样本),这些方法要么语义盲目要么需昂贵外部模型,均未利用提示自身 token 嵌入的内在语义结构
  • CDG 的独特定位:首次利用文本编码器中 content/context-aggregating token 的功能二分性,在输入级实现自适应语义退化,兼具理论解释力与实用轻量性

评分

  • 新颖性: ⭐⭐⭐⭐ — 从 token 功能二分性出发设计语义退化策略,视角新颖;"好 vs. 差一点"的引导范式转变具有启发性
  • 实验充分度: ⭐⭐⭐⭐⭐ — 四种模型、多指标、GenAI-Bench 组合推理、详尽消融与几何分析,CFG* 验证实验设计精巧
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,几何直觉解释到位,公式推导与实验呼应良好
  • 价值: ⭐⭐⭐⭐ — 即插即用的实用方案,对 CFG 的原理性改进,对社区有直接应用价值