Diverse Text-to-Image Generation via Contrastive Noise Optimization¶
会议: ICLR 2026 arXiv: 2510.03813 代码: 有(官方开源) 领域: 扩散模型 / 图像生成 关键词: 扩散模型, 文本到图像生成, 多样性, 对比学习, 噪声优化, InfoNCE
一句话总结¶
提出 Contrastive Noise Optimization (CNO),通过在 Tweedie 去噪预测空间上对初始噪声施加 InfoNCE 对比损失,以预处理方式提升扩散模型生成多样性,同时保持保真度,无需修改采样过程或模型本身。
研究背景与动机¶
- 扩散模型的多样性瓶颈:当前文本到图像扩散模型(如 SD1.5、SDXL、SD3)在给定相同 prompt 时,生成结果往往高度相似(mode collapse / 模式坍缩),特别是在确定性采样器(如 DDIM、FM-ODE)下,输出多样性严重不足。
- 根源在噪声空间分布:随机采样的高斯初始噪声并不保证在去噪后的语义空间中均匀分散,导致多个噪声映射到相似的生成结果。
- 已有方法的局限:增加随机性(如 stochastic samplers)会牺牲质量;后处理方法(如 rejection sampling)计算开销大;修改模型结构或训练流程侵入性强。
- 对比学习的启发:InfoNCE 损失天然具有"拉近正样本、推远负样本"的结构,适合在噪声批次中同时维持保真度(吸引项)和提升多样性(排斥项)。
- 预处理范式的吸引力:如果能在采样前仅优化初始噪声,就能与任意扩散模型和采样器组合,具有极强的通用性和即插即用特性。
- 理论可控性需求:需要一个可解析的参数来平衡多样性与保真度,而非依赖手动调参。
方法详解¶
整体框架¶
CNO 是一个 一次性预处理(one-shot preprocessing) 方法。给定一批随机初始噪声 \(\{z_i\}_{i=1}^B\),通过梯度优化使其在 Tweedie 去噪预测空间中既保持各自原始位置(保真度),又彼此远离(多样性)。优化完成后,将优化后的噪声送入任意扩散模型的标准采样流程,无需修改采样器或模型参数。
关键设计¶
1. Tweedie 去噪预测空间
- 对每个噪声 \(z_i\),利用扩散模型的一步去噪(Tweedie denoised prediction)得到语义级别的表示 \(\hat{x}_0(z_i)\)
- 在此空间而非原始噪声空间中计算距离,因为噪声空间的距离与最终生成结果的语义差异并不直接对应
2. InfoNCE 对比损失
- 吸引项(Attraction):将每个优化后的噪声锚定在其原始位置附近,防止过度偏移导致质量下降
- 排斥项(Repulsion):推动不同噪声在去噪预测空间中彼此远离,增强输出多样性
- 损失形式:
\[\mathcal{L}_{\text{CNO}} = -\frac{1}{B}\sum_{i=1}^{B}\log\frac{\exp(\text{sim}(z_i, z_i^{\text{orig}})/\tau)}{\exp(\text{sim}(z_i, z_i^{\text{orig}})/\tau) + \sum_{j \neq i}\exp(\text{sim}(z_i, z_j)/\tau)}\]
3. γ 参数与闭式公式
- \(\gamma\) 控制吸引力与排斥力的平衡
- 闭式公式:\(\gamma = (\tau \cdot \ln(B-1) + 1)^{-1}\)
- 随 batch size \(B\) 增大,排斥样本增多,\(\gamma\) 自动减小排斥力以防过度分散
4. 自适应 Latent Pooling
- 使用窗口 \(w\) 对 latent 进行空间下采样,降低对比损失计算的维度
- \(w=16\) 为最优平衡点:效率高且性能损失极小
5. Stop-Gradient 策略
- 对排斥项中配对噪声的梯度进行截断(stop-gradient),减少计算开销,避免噪声间的相互耦合导致不稳定
损失函数/训练策略¶
- 优化目标:最小化 CNO 对比损失
- 优化器:标准梯度下降(如 Adam),对一批噪声进行少量迭代优化
- 仅优化噪声向量 \(z_i\),不涉及模型参数更新
- 温度 \(\tau\) 为超参数,与 \(\gamma\) 联合通过闭式公式自动确定
实验关键数据¶
主实验¶
在多个扩散模型上对比 CNO 与基线方法的多样性和质量指标:
| 模型 | 方法 | MSS ↓ | Vendi Score ↑ | Coverage ↑ | PickScore ↑ |
|---|---|---|---|---|---|
| SD1.5 | DDIM | 0.1657 | 4.6949 | - | - |
| SD1.5 | CNO | 0.1317 | 4.7855 | - | - |
| SDXL | DDIM | 0.2169 | - | - | - |
| SDXL | CNO | 0.1623 | - | 0.7568 | - |
| SD3 | FM-ODE | - | 4.2205 | - | - |
| SD3 | CNO | - | 4.2644 | - | - |
消融实验¶
| 组件 | MSS ↓ | Vendi ↑ | 说明 |
|---|---|---|---|
| 完整 CNO (w=16) | 0.1317 | 4.7855 | 最优配置 |
| 无吸引项 | 0.1285 | 4.8012 | 多样性略高但质量下降 |
| 无排斥项 | 0.1648 | 4.7011 | 多样性提升不明显 |
| w=4 | 0.1325 | 4.7801 | 计算开销大,收益有限 |
| w=32 | 0.1398 | 4.7512 | 信息损失过多 |
| 无 stop-gradient | 0.1321 | 4.7830 | 效果接近但计算量翻倍 |
关键发现¶
- Pareto 最优:CNO 在 PickScore(质量)vs Vendi Score(多样性)散点图上占据主导 Pareto 前沿
- 少步采样兼容:在 FLUX 和 SDXL-Lightning 等少步采样器上依然有效,证明预处理范式的通用性
- γ 闭式公式验证:理论推导的 \(\gamma\) 值与网格搜索最优值高度吻合,免去超参数调优
- window size 鲁棒:\(w \in [8, 32]\) 范围内性能稳定,\(w=16\) 最优
亮点与洞察¶
- 即插即用:作为预处理方法,与任意扩散模型和采样器正交组合,工程部署成本极低
- 理论优雅:\(\gamma\) 的闭式公式将 batch size 和温度的影响统一到一个可解释的参数中
- 对比学习新视角:将 InfoNCE 从表示学习迁移到噪声空间优化,是一个巧妙的概念迁移
- Tweedie 空间的洞察:在语义相关的去噪预测空间(而非噪声空间)中衡量距离,是方法有效的关键
局限性 / 可改进方向¶
- 额外计算开销:每次生成需要额外的优化迭代(尽管是 one-shot),对实时应用有延迟影响
- batch 依赖:方法需要同时优化一批噪声,单张生成场景下无法使用
- 语义多样性验证不足:MSS 和 Vendi Score 主要衡量像素级多样性,缺乏对语义层面多样性的深入分析
- Tweedie 预测精度:依赖一步去噪预测的质量,对某些模型或时间步可能不够准确
- 可扩展性:batch size 很大时,对比损失的计算和内存开销可能成为瓶颈
相关工作与启发¶
- DDIM / DPM-Solver:确定性采样器效率高但多样性差,CNO 恰好补足这一短板
- DPP(行列式点过程):经典的多样性采样方法,CNO 的对比损失可视为连续版本的 DPP
- 对比学习(SimCLR/MoCo):InfoNCE 在表示学习中被广泛验证,CNO 将其迁移到生成模型的噪声空间
- Noise scheduling 研究:已有工作关注噪声调度对质量的影响,CNO 首次关注噪声初始化对多样性的影响
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将对比学习应用于噪声优化是一个简洁而新颖的idea,闭式 γ 公式增添理论深度
- 实验充分度: ⭐⭐⭐⭐ — 覆盖 SD1.5/SDXL/SD3/FLUX 多个模型,消融实验完整,Pareto 分析有说服力
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法推导流畅,图表质量高
- 价值: ⭐⭐⭐⭐ — 即插即用的实用性强,对扩散模型生成多样性问题提供了一个干净的解决方案