Diverse Text-to-Image Generation via Contrastive Noise Optimization¶

会议: ICLR 2026 arXiv: 2510.03813 代码: 有（官方开源）领域: 扩散模型 / 图像生成 关键词: 扩散模型, 文本到图像生成, 多样性, 对比学习, 噪声优化, InfoNCE

一句话总结¶

提出 Contrastive Noise Optimization (CNO)，通过在 Tweedie 去噪预测空间上对初始噪声施加 InfoNCE 对比损失，以预处理方式提升扩散模型生成多样性，同时保持保真度，无需修改采样过程或模型本身。

研究背景与动机¶

扩散模型的多样性瓶颈：当前文本到图像扩散模型（如 SD1.5、SDXL、SD3）在给定相同 prompt 时，生成结果往往高度相似（mode collapse / 模式坍缩），特别是在确定性采样器（如 DDIM、FM-ODE）下，输出多样性严重不足。
根源在噪声空间分布：随机采样的高斯初始噪声并不保证在去噪后的语义空间中均匀分散，导致多个噪声映射到相似的生成结果。
已有方法的局限：增加随机性（如 stochastic samplers）会牺牲质量；后处理方法（如 rejection sampling）计算开销大；修改模型结构或训练流程侵入性强。
对比学习的启发：InfoNCE 损失天然具有"拉近正样本、推远负样本"的结构，适合在噪声批次中同时维持保真度（吸引项）和提升多样性（排斥项）。
预处理范式的吸引力：如果能在采样前仅优化初始噪声，就能与任意扩散模型和采样器组合，具有极强的通用性和即插即用特性。
理论可控性需求：需要一个可解析的参数来平衡多样性与保真度，而非依赖手动调参。

方法详解¶

整体框架¶

CNO 是一个 一次性预处理（one-shot preprocessing） 方法。给定一批随机初始噪声 \(\{z_i\}_{i=1}^B\)，通过梯度优化使其在 Tweedie 去噪预测空间中既保持各自原始位置（保真度），又彼此远离（多样性）。优化完成后，将优化后的噪声送入任意扩散模型的标准采样流程，无需修改采样器或模型参数。

关键设计¶

1. Tweedie 去噪预测空间

对每个噪声 \(z_i\)，利用扩散模型的一步去噪（Tweedie denoised prediction）得到语义级别的表示 \(\hat{x}_0(z_i)\)
在此空间而非原始噪声空间中计算距离，因为噪声空间的距离与最终生成结果的语义差异并不直接对应

2. InfoNCE 对比损失

吸引项（Attraction）：将每个优化后的噪声锚定在其原始位置附近，防止过度偏移导致质量下降
排斥项（Repulsion）：推动不同噪声在去噪预测空间中彼此远离，增强输出多样性
损失形式：

\[\mathcal{L}_{\text{CNO}} = -\frac{1}{B}\sum_{i=1}^{B}\log\frac{\exp(\text{sim}(z_i, z_i^{\text{orig}})/\tau)}{\exp(\text{sim}(z_i, z_i^{\text{orig}})/\tau) + \sum_{j \neq i}\exp(\text{sim}(z_i, z_j)/\tau)}\]

3. γ 参数与闭式公式

\(\gamma\) 控制吸引力与排斥力的平衡
闭式公式：\(\gamma = (\tau \cdot \ln(B-1) + 1)^{-1}\)
随 batch size \(B\) 增大，排斥样本增多，\(\gamma\) 自动减小排斥力以防过度分散

4. 自适应 Latent Pooling

使用窗口 \(w\) 对 latent 进行空间下采样，降低对比损失计算的维度
\(w=16\) 为最优平衡点：效率高且性能损失极小

5. Stop-Gradient 策略

对排斥项中配对噪声的梯度进行截断（stop-gradient），减少计算开销，避免噪声间的相互耦合导致不稳定

损失函数/训练策略¶

优化目标：最小化 CNO 对比损失
优化器：标准梯度下降（如 Adam），对一批噪声进行少量迭代优化
仅优化噪声向量 \(z_i\)，不涉及模型参数更新
温度 \(\tau\) 为超参数，与 \(\gamma\) 联合通过闭式公式自动确定

实验关键数据¶

主实验¶

在多个扩散模型上对比 CNO 与基线方法的多样性和质量指标：

模型	方法	MSS ↓	Vendi Score ↑	Coverage ↑	PickScore ↑
SD1.5	DDIM	0.1657	4.6949	-	-
SD1.5	CNO	0.1317	4.7855	-	-
SDXL	DDIM	0.2169	-	-	-
SDXL	CNO	0.1623	-	0.7568	-
SD3	FM-ODE	-	4.2205	-	-
SD3	CNO	-	4.2644	-	-

消融实验¶

组件	MSS ↓	Vendi ↑	说明
完整 CNO (w=16)	0.1317	4.7855	最优配置
无吸引项	0.1285	4.8012	多样性略高但质量下降
无排斥项	0.1648	4.7011	多样性提升不明显
w=4	0.1325	4.7801	计算开销大，收益有限
w=32	0.1398	4.7512	信息损失过多
无 stop-gradient	0.1321	4.7830	效果接近但计算量翻倍

关键发现¶

Pareto 最优：CNO 在 PickScore（质量）vs Vendi Score（多样性）散点图上占据主导 Pareto 前沿
少步采样兼容：在 FLUX 和 SDXL-Lightning 等少步采样器上依然有效，证明预处理范式的通用性
γ 闭式公式验证：理论推导的 \(\gamma\) 值与网格搜索最优值高度吻合，免去超参数调优
window size 鲁棒：\(w \in [8, 32]\) 范围内性能稳定，\(w=16\) 最优

亮点与洞察¶

即插即用：作为预处理方法，与任意扩散模型和采样器正交组合，工程部署成本极低
理论优雅：\(\gamma\) 的闭式公式将 batch size 和温度的影响统一到一个可解释的参数中
对比学习新视角：将 InfoNCE 从表示学习迁移到噪声空间优化，是一个巧妙的概念迁移
Tweedie 空间的洞察：在语义相关的去噪预测空间（而非噪声空间）中衡量距离，是方法有效的关键

局限性 / 可改进方向¶

额外计算开销：每次生成需要额外的优化迭代（尽管是 one-shot），对实时应用有延迟影响
batch 依赖：方法需要同时优化一批噪声，单张生成场景下无法使用
语义多样性验证不足：MSS 和 Vendi Score 主要衡量像素级多样性，缺乏对语义层面多样性的深入分析
Tweedie 预测精度：依赖一步去噪预测的质量，对某些模型或时间步可能不够准确
可扩展性：batch size 很大时，对比损失的计算和内存开销可能成为瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ — 将对比学习应用于噪声优化是一个简洁而新颖的idea，闭式 γ 公式增添理论深度
实验充分度: ⭐⭐⭐⭐ — 覆盖 SD1.5/SDXL/SD3/FLUX 多个模型，消融实验完整，Pareto 分析有说服力
写作质量: ⭐⭐⭐⭐ — 动机清晰，方法推导流畅，图表质量高
价值: ⭐⭐⭐⭐ — 即插即用的实用性强，对扩散模型生成多样性问题提供了一个干净的解决方案