Golden Noise for Diffusion Models: A Learning Framework¶

会议: ICCV 2025
arXiv: 2411.09502
代码: GitHub
领域: 扩散模型/图像生成
关键词: 噪声提示, 黄金噪声, 扩散模型, 图像质量提升, 即插即用

一句话总结¶

本文提出"噪声提示"（Noise Prompt）概念，设计了一个轻量级噪声提示网络（NPNet），通过 Re-denoise Sampling 收集 10 万对噪声数据训练 NPNet，将随机高斯噪声转化为承载语义信息的"黄金噪声"，作为即插即用模块提升 SDXL 等多种扩散模型的生成质量，仅增加 3% 推理时间。

研究背景与动机¶

文生图扩散模型中，图像质量由文本提示和初始噪声两个因素共同决定。文本提示的重要性已被广泛研究（prompt engineering），但噪声的角色长期被忽视。

关键观察：一些噪声天然比其他噪声更好（golden noise），能生成更高质量、语义对齐更好的图像。但如何系统地获得这些黄金噪声？

现有噪声优化方法的局限： 1. 难以泛化到不同数据集和模型 2. 在逆向过程中优化噪声引入显著时延 3. 需要修改原始 pipeline 的内部结构 4. 需要特定 subject token 计算损失

核心问题：能否将获取黄金噪声formulate为机器学习问题，用一次前向推理高效预测？能否泛化到不同噪声、提示和模型？

本文的核心 idea：Noise Prompt = 对随机噪声施加由文本驱动的小扰动，将其转为黄金噪声。

方法详解¶

整体框架¶

三阶段工作流： - Stage I（数据收集）：通过 Re-denoise Sampling 生成噪声对，用人类偏好模型筛选 - Stage II（训练）：训练 NPNet 学习从源噪声到目标噪声的映射 - Stage III（推理）：NPNet 作为即插即用模块替换随机噪声为黄金噪声

关键设计¶

Re-denoise Sampling 数据收集:
- 功能：构建大规模噪声提示数据集（NPD），包含 10 万对源噪声-目标噪声及对应文本
- 核心思路：对初始噪声 \(\mathbf{x}_T\) 先做一步 DDIM 去噪得到 \(\mathbf{x}_{T-1}\)，再用 DDIM-Inversion 反转回 \(\mathbf{x}_T'\)。由于 DDIM 和 DDIM-Inversion 使用不同的 CFG 尺度（\(\omega_l > \omega_w\)），\(\mathbf{x}_T'\) 相比 \(\mathbf{x}_T\) 携带了更多语义信息： \(\mathbf{x}_T' = \text{DDIM-Inversion}(\text{DDIM}(\mathbf{x}_T))\)
- 数据筛选：使用 HPSv2 偏好模型，仅保留 \(s_0 + m < s_0'\) 的高质量对
- 设计动机：利用 CFG 尺度不一致性将语义信息"注入"到噪声中，AI 反馈确保数据集质量
NPNet 架构设计（SVD 预测 + 残差预测）:
- 功能：从源噪声和文本提示预测黄金噪声
- 核心思路包含两条路径：
奇异值预测：基于 Davis-Kahan 定理的观察——源噪声和目标噪声的奇异向量高度相似，只需预测新的奇异值： \(\mathbf{x}_T = U \times \Sigma \times V^T\) \(\tilde{\Sigma} = f(g(\phi(U, \Sigma, V^T)))\) \(\tilde{\mathbf{x}}_T' = U \times \tilde{\Sigma} \times V^T\)

残差预测：通过 ViT + UpSample/DownSample 预测源噪声和目标噪声的残差，并注入文本语义： \(\mathbf{e} = \sigma(\mathbf{x}_T, \mathcal{E}(\mathbf{c}))\) \(\hat{\mathbf{x}}_T = \varphi'(\psi(\varphi(\mathbf{x}_T + \mathbf{e})))\) - 设计动机：SVD 路径利用了噪声对之间的结构相似性，残差路径捕获文本相关的精细调整
训练与推理:
- 功能：MSE 损失训练，推理时直接替换初始噪声
- 核心思路： \(\mathcal{L}_\text{MSE} = \text{MSE}(\mathbf{x}_T', \mathbf{x}_{T_{pred}}')\) \(\mathbf{x}_{T_{pred}}' = \alpha\mathbf{e} + \tilde{\mathbf{x}}_T' + \beta\hat{\mathbf{x}}_T\) 其中 \(\alpha, \beta\) 为可学习参数
- 设计动机：\(\alpha\) 控制语义注入强度，\(\beta\) 控制残差预测权重，自适应平衡两条路径

损失函数 / 训练策略¶

损失函数：MSE 损失（预测噪声 vs 目标噪声）
训练集：从 Pick-a-Pic 随机选取 10 万 prompt，每个配随机种子
训练配置：batch size 64，30 epochs

实验关键数据¶

主实验¶

模型/数据集	指标	Standard	NPNet	提升
SDXL / Pick-a-Pic	HPSv2↑	28.48	28.68	+0.20
SDXL / Pick-a-Pic	ImageReward↑	58.01	65.01	+7.00
SDXL / Pick-a-Pic	CLIPScore↑	0.8204	0.8408	+0.0204
SDXL / DrawBench	ImageReward↑	62.21	70.67	+8.46
DreamShaper / Pick-a-Pic	HPSv2↑	32.12	32.69	+0.57
DreamShaper / Pick-a-Pic	ImageReward↑	98.09	106.74	+8.65
Hunyuan-DiT / HPD	ImageReward↑	99.22	108.29	+9.07
Hunyuan-DiT / HPD	MPS↑	-	52.87	胜率超50%

消融实验¶

配置	PickScore	HPSv2	AES	ImageReward
Standard（无 NPNet）	21.69	28.48	6.0373	58.01
NPNet w/o 奇异值预测	21.49	27.76	6.0164	49.03
NPNet w/o 残差预测	21.83	28.55	6.0315	63.05
NPNet w/o 数据筛选	21.73	28.46	6.0375	62.91
NPNet（完整）	21.86	28.68	6.0540	65.01

关键发现¶

奇异值预测是核心组件：去掉后性能甚至低于 Standard，说明 SVD 结构先验至关重要
跨模型泛化性强：SDXL 训练的 NPNet 仅需 600 样本微调即可用于 Hunyuan-DiT
跨采样器泛化：DDIM 训练的 NPNet 在 7 种不同随机/确定性采样器上均有效
与其他方法正交：可与 DPO、AYS 等方法叠加使用，进一步提升效果
仅 3% 额外推理时间：NPNet 作为 plug-and-play 模块的开销极小

亮点与洞察¶

概念创新："Noise Prompt"类比"Text Prompt"是非常直觉且有洞察力的概念
SVD 观察精彩：发现噪声对的奇异向量高度相似这一先验，巧妙地简化了学习问题
工程落地性强：3% 时间开销 + plug-and-play + 跨模型泛化 = 极高的实用价值
Re-denoise Sampling 的理论理解：CFG 尺度不一致性注入语义信息的机制有理论支撑

局限与展望¶

提升幅度在某些指标上不大（如 PickScore ~0.1 的提升）
依赖特定的 HPSv2 等人类偏好模型进行数据筛选，可能引入偏差
Re-denoise Sampling 数据收集本身需要大量计算（10 万对噪声需要大量扩散推理）
在少步推理模型（如 LCM 4 步）上的效果有待更多验证
黄金噪声的"为什么好"缺乏更深入的理论分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ Noise Prompt 概念新颖，SVD 结构先验独特，Re-denoise Sampling 巧妙
实验充分度: ⭐⭐⭐⭐⭐ 跨模型、跨数据集、跨采样器、正交实验、消融实验全面
写作质量: ⭐⭐⭐⭐ 思路清晰，但细节较多需要仔细追踪
价值: ⭐⭐⭐⭐⭐ 作为即插即用的质量提升模块，实用价值极高