Fine-Tuning Diffusion Models via Intermediate Distribution Shaping¶

会议: ICLR 2026
arXiv: 2510.02692
代码: 无
领域: 扩散模型/微调
关键词: 扩散模型微调, 拒绝采样, KL正则, 中间分布, 逆噪声校正

一句话总结¶

统一拒绝采样微调方法为GRAFT框架并证明其隐式执行KL正则化奖励最大化，进而提出P-GRAFT在中间去噪步骤做分布整形（偏差-方差权衡更优），以及Inverse Noise Correction无需奖励即可改进流模型质量，在T2I上VQAScore提升8.81%。

领域现状：扩散模型微调常用PPO+KL正则化，但扩散模型的边际似然不可计算，导致KL项要么被忽略（不稳定）要么用轨迹KL近似（次优+初始值函数偏差）。

现有痛点：(1) 边际KL不可计算→PPO需要放松近似；(2) 拒绝采样方法（RAFT/BoN）虽实用但理论联系不清楚；(3) 只对最终数据分布做整形，没有利用扩散模型中间步骤的结构。

核心矛盾：扩散模型需要KL正则化来稳定微调，但边际KL不可计算。

切入角度：证明拒绝采样隐式实现了边际KL约束（尽管似然不可计算），然后利用扩散的多步结构在中间分布做整形。

核心 idea：拒绝采样=隐式KL正则化 → 在中间去噪步做拒绝采样 → 更优的偏差-方差权衡。

两个贡献：(1) P-GRAFT：在中间步骤 \(t\) 做拒绝采样微调；(2) Inverse Noise Correction：反转流模型学习更优初始噪声分布，无需奖励。

GRAFT统一框架:
- 功能：统一经典拒绝采样、Best-of-N、Top-K等为广义拒绝采样(GRS)
- 核心思路：Lemma 2.3证明GRS接受的样本分布是KL正则化奖励最大化的解 \(p^{\text{RL}}(x) \propto \exp(\hat{r}(x)/\alpha)\bar{p}(x)\)，奖励被重整形
- 设计动机：扩散模型的边际KL不可计算，但GRS隐式实现了它
P-GRAFT (Partial-GRAFT):
- 功能：不对最终样本做拒绝采样，而对中间去噪状态 \(X_t\) 做
- 核心思路：Lemma 3.2证明P-GRS整形了中间分布 \(\bar{p}_t\) 而非最终分布。微调模型只负责 \(T \to t\) 的去噪，\(t \to 0\) 用原始模型。偏差-方差权衡：\(t\) 大→奖励方差大但学习问题简单（score函数简单），\(t\) 小→奖励精确但学习困难。
- 设计动机：选择合适的中间时间 \(t\) 可以兼顾两方面
Inverse Noise Correction:
- 功能：反转流模型从数据到噪声的映射，学习更优的初始噪声分布
- 核心思路：用adapter学习噪声空间中的修正，无需显式奖励函数
- 设计动机：流模型的可逆性使得推断初始噪声分布成为可能

Stable Diffusion v2 T2I微调：

方法	VQAScore	相对基线提升	说明
SD v2 (基线)	基线	—	未微调
Policy Gradient	中	中	PPO类方法
GRAFT (最终步)	好	好	标准拒绝采样
P-GRAFT	最好	+8.81%	中间步拒绝采样
SDXL-Base	对比	—	更大模型