跳转至

Diverse Text-to-Image Generation via Contrastive Noise Optimization

会议: ICLR 2026 arXiv: 2510.03813 代码: 有(官方开源) 领域: 扩散模型 / 图像生成 关键词: 扩散模型, 文本到图像生成, 多样性, 对比学习, 噪声优化, InfoNCE

一句话总结

提出 Contrastive Noise Optimization (CNO),通过在 Tweedie 去噪预测空间上对初始噪声施加 InfoNCE 对比损失,以预处理方式提升扩散模型生成多样性,同时保持保真度,无需修改采样过程或模型本身。

研究背景与动机

  1. 扩散模型的多样性瓶颈:当前文本到图像扩散模型(如 SD1.5、SDXL、SD3)在给定相同 prompt 时,生成结果往往高度相似(mode collapse / 模式坍缩),特别是在确定性采样器(如 DDIM、FM-ODE)下,输出多样性严重不足。
  2. 根源在噪声空间分布:随机采样的高斯初始噪声并不保证在去噪后的语义空间中均匀分散,导致多个噪声映射到相似的生成结果。
  3. 已有方法的局限:增加随机性(如 stochastic samplers)会牺牲质量;后处理方法(如 rejection sampling)计算开销大;修改模型结构或训练流程侵入性强。
  4. 对比学习的启发:InfoNCE 损失天然具有"拉近正样本、推远负样本"的结构,适合在噪声批次中同时维持保真度(吸引项)和提升多样性(排斥项)。
  5. 预处理范式的吸引力:如果能在采样前仅优化初始噪声,就能与任意扩散模型和采样器组合,具有极强的通用性和即插即用特性。
  6. 理论可控性需求:需要一个可解析的参数来平衡多样性与保真度,而非依赖手动调参。

方法详解

整体框架

CNO 是一个 一次性预处理(one-shot preprocessing) 方法。给定一批随机初始噪声 \(\{z_i\}_{i=1}^B\),通过梯度优化使其在 Tweedie 去噪预测空间中既保持各自原始位置(保真度),又彼此远离(多样性)。优化完成后,将优化后的噪声送入任意扩散模型的标准采样流程,无需修改采样器或模型参数。

关键设计

1. Tweedie 去噪预测空间

  • 对每个噪声 \(z_i\),利用扩散模型的一步去噪(Tweedie denoised prediction)得到语义级别的表示 \(\hat{x}_0(z_i)\)
  • 在此空间而非原始噪声空间中计算距离,因为噪声空间的距离与最终生成结果的语义差异并不直接对应

2. InfoNCE 对比损失

  • 吸引项(Attraction):将每个优化后的噪声锚定在其原始位置附近,防止过度偏移导致质量下降
  • 排斥项(Repulsion):推动不同噪声在去噪预测空间中彼此远离,增强输出多样性
  • 损失形式:
\[\mathcal{L}_{\text{CNO}} = -\frac{1}{B}\sum_{i=1}^{B}\log\frac{\exp(\text{sim}(z_i, z_i^{\text{orig}})/\tau)}{\exp(\text{sim}(z_i, z_i^{\text{orig}})/\tau) + \sum_{j \neq i}\exp(\text{sim}(z_i, z_j)/\tau)}\]

3. γ 参数与闭式公式

  • \(\gamma\) 控制吸引力与排斥力的平衡
  • 闭式公式:\(\gamma = (\tau \cdot \ln(B-1) + 1)^{-1}\)
  • 随 batch size \(B\) 增大,排斥样本增多,\(\gamma\) 自动减小排斥力以防过度分散

4. 自适应 Latent Pooling

  • 使用窗口 \(w\) 对 latent 进行空间下采样,降低对比损失计算的维度
  • \(w=16\) 为最优平衡点:效率高且性能损失极小

5. Stop-Gradient 策略

  • 对排斥项中配对噪声的梯度进行截断(stop-gradient),减少计算开销,避免噪声间的相互耦合导致不稳定

损失函数/训练策略

  • 优化目标:最小化 CNO 对比损失
  • 优化器:标准梯度下降(如 Adam),对一批噪声进行少量迭代优化
  • 仅优化噪声向量 \(z_i\),不涉及模型参数更新
  • 温度 \(\tau\) 为超参数,与 \(\gamma\) 联合通过闭式公式自动确定

实验关键数据

主实验

在多个扩散模型上对比 CNO 与基线方法的多样性和质量指标:

模型 方法 MSS ↓ Vendi Score ↑ Coverage ↑ PickScore ↑
SD1.5 DDIM 0.1657 4.6949 - -
SD1.5 CNO 0.1317 4.7855 - -
SDXL DDIM 0.2169 - - -
SDXL CNO 0.1623 - 0.7568 -
SD3 FM-ODE - 4.2205 - -
SD3 CNO - 4.2644 - -

消融实验

组件 MSS ↓ Vendi ↑ 说明
完整 CNO (w=16) 0.1317 4.7855 最优配置
无吸引项 0.1285 4.8012 多样性略高但质量下降
无排斥项 0.1648 4.7011 多样性提升不明显
w=4 0.1325 4.7801 计算开销大,收益有限
w=32 0.1398 4.7512 信息损失过多
无 stop-gradient 0.1321 4.7830 效果接近但计算量翻倍

关键发现

  1. Pareto 最优:CNO 在 PickScore(质量)vs Vendi Score(多样性)散点图上占据主导 Pareto 前沿
  2. 少步采样兼容:在 FLUX 和 SDXL-Lightning 等少步采样器上依然有效,证明预处理范式的通用性
  3. γ 闭式公式验证:理论推导的 \(\gamma\) 值与网格搜索最优值高度吻合,免去超参数调优
  4. window size 鲁棒\(w \in [8, 32]\) 范围内性能稳定,\(w=16\) 最优

亮点与洞察

  • 即插即用:作为预处理方法,与任意扩散模型和采样器正交组合,工程部署成本极低
  • 理论优雅\(\gamma\) 的闭式公式将 batch size 和温度的影响统一到一个可解释的参数中
  • 对比学习新视角:将 InfoNCE 从表示学习迁移到噪声空间优化,是一个巧妙的概念迁移
  • Tweedie 空间的洞察:在语义相关的去噪预测空间(而非噪声空间)中衡量距离,是方法有效的关键

局限性 / 可改进方向

  1. 额外计算开销:每次生成需要额外的优化迭代(尽管是 one-shot),对实时应用有延迟影响
  2. batch 依赖:方法需要同时优化一批噪声,单张生成场景下无法使用
  3. 语义多样性验证不足:MSS 和 Vendi Score 主要衡量像素级多样性,缺乏对语义层面多样性的深入分析
  4. Tweedie 预测精度:依赖一步去噪预测的质量,对某些模型或时间步可能不够准确
  5. 可扩展性:batch size 很大时,对比损失的计算和内存开销可能成为瓶颈

相关工作与启发

  • DDIM / DPM-Solver:确定性采样器效率高但多样性差,CNO 恰好补足这一短板
  • DPP(行列式点过程):经典的多样性采样方法,CNO 的对比损失可视为连续版本的 DPP
  • 对比学习(SimCLR/MoCo):InfoNCE 在表示学习中被广泛验证,CNO 将其迁移到生成模型的噪声空间
  • Noise scheduling 研究:已有工作关注噪声调度对质量的影响,CNO 首次关注噪声初始化对多样性的影响

评分

  • 新颖性: ⭐⭐⭐⭐ — 将对比学习应用于噪声优化是一个简洁而新颖的idea,闭式 γ 公式增添理论深度
  • 实验充分度: ⭐⭐⭐⭐ — 覆盖 SD1.5/SDXL/SD3/FLUX 多个模型,消融实验完整,Pareto 分析有说服力
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法推导流畅,图表质量高
  • 价值: ⭐⭐⭐⭐ — 即插即用的实用性强,对扩散模型生成多样性问题提供了一个干净的解决方案