Rethinking Direct Preference Optimization in Diffusion Models¶
会议: SPIGM@NeurIPS 2025 / AAAI 2026 (Oral)
arXiv: 2505.18736
代码: GitHub
领域: LLM对齐 / 扩散模型
关键词: 扩散模型, DPO, 偏好优化, 参考模型更新, 时间步感知
一句话总结¶
针对扩散模型中 DPO 的两个核心问题——有限探索和奖励尺度不平衡,提出稳定参考模型更新策略和时间步感知训练策略,可集成到各种偏好优化算法中。
研究背景与动机¶
将文本到图像(T2I)扩散模型与人类偏好对齐是当前的热门研究方向。虽然 DPO 等偏好优化技术已从 LLM 扩展到扩散模型,但存在特有的挑战:
有限探索: 冻结的参考模型限制了策略的探索空间,导致生成多样性不足
奖励尺度不平衡: 不同去噪时间步的奖励信号量级差异巨大,影响训练稳定性
扩散特有困难: 与 LLM 不同,扩散模型的生成过程涉及多步去噪,每步的优化目标不同
方法详解¶
整体框架¶
提出两个正交的改进策略,可与现有的扩散 DPO/DPOK/Diffusion-DPO 等方法结合使用。
关键设计¶
1. 稳定参考模型更新策略 (Stable Reference Model Update)
标准 DPO 中参考模型 \(\pi_{\text{ref}}\) 固定不变,限制了探索: - 提出渐进更新参考模型: \(\pi_{\text{ref}}^{(t+1)} = (1-\alpha) \pi_{\text{ref}}^{(t)} + \alpha \pi_\theta^{(t)}\) - 参考模型正则化: 约束更新后的参考模型不偏离初始模型太远 - 平衡探索与稳定性: \(\alpha\) 小时保守,\(\alpha\) 大时激进
2. 时间步感知训练策略 (Timestep-Aware Training)
扩散模型在不同时间步的信噪比差异巨大: - 发现: 大时间步(高噪声)的奖励信号幅度远大于小时间步(低噪声) - 这导致训练被大时间步主导,小时间步学习不足 - 解决方案: 对不同时间步的损失进行归一化加权
其中 \(w(t)\) 是基于时间步 \(t\) 处奖励信号方差的归一化权重。
损失函数 / 训练策略¶
完整损失: $\(\mathcal{L} = \mathcal{L}_{\text{DPO}} + \lambda_1 \mathcal{L}_{\text{reg}} + \lambda_2 \mathcal{L}_{\text{timestep-norm}}\)$
训练流程: 在标准 DPO 训练循环中添加参考模型更新和时间步归一化。
实验关键数据¶
主实验¶
SDXL 上的人类偏好评估 (Pick-a-Pic, HPSv2):
| 方法 | HPSv2 ↑ | Pick Score ↑ | Aesthetic ↑ | CLIP Score |
|---|---|---|---|---|
| SDXL (基线) | 27.5 | 21.8 | 5.82 | 0.315 |
| Diffusion-DPO | 28.2 | 22.3 | 5.95 | 0.318 |
| Diffusion-DPO + Ours | 28.8 | 22.9 | 6.12 | 0.322 |
| D3PO | 28.0 | 22.1 | 5.90 | 0.316 |
| D3PO + Ours | 28.5 | 22.6 | 6.05 | 0.320 |
SD1.5 上的结果:
| 方法 | HPSv2 ↑ | Aesthetic ↑ | 多样性 (FID) |
|---|---|---|---|
| SD1.5 | 25.8 | 5.45 | 15.2 |
| Diffusion-DPO | 26.5 | 5.68 | 18.5 |
| Diffusion-DPO + Ours | 27.1 | 5.85 | 16.8 |
消融实验¶
两个策略的独立贡献 (SDXL, HPSv2):
| 配置 | HPSv2 | 改善 |
|---|---|---|
| Diffusion-DPO (基线) | 28.2 | - |
| + 参考模型更新 | 28.5 | +0.3 |
| + 时间步感知 | 28.5 | +0.3 |
| + 两者结合 | 28.8 | +0.6 |
关键发现¶
- 两个策略贡献互补,各自提供约 +0.3 的 HPSv2 改善
- 参考模型更新在训练后期效果更明显,随着策略偏离初始模型
- 时间步感知在低噪声步改善最大,因为这些步决定了细节质量
- 方法可无缝集成到 Diffusion-DPO、D3PO 等多种算法中
亮点与洞察¶
- 正交改进: 两个策略相互独立,可分别或联合使用
- 通用性: 可作为即插即用模块集成到任何扩散偏好优化方法中
- 实际洞察: 时间步奖励不平衡是扩散 DPO 中被忽视但重要的问题
局限与展望¶
- \(\alpha\) 的最优值依赖于具体任务和模型
- 参考模型更新增加了内存需求(需要存储额外模型参数)
- 仅在图像生成上验证,视频生成场景未探索
- 时间步归一化权重的设计缺乏自适应性
相关工作与启发¶
- Diffusion-DPO (Wallace et al.): 将 DPO 扩展到扩散模型的工作
- D3PO: 另一种扩散偏好优化方法
- Online DPO: LLM 中参考模型更新的相关工作
评分¶
- ⭐ 创新性: 7/10 — 两个改进虽有效但思路相对直接
- ⭐ 实用性: 8/10 — 即插即用,开源代码,实用价值高
- ⭐ 写作质量: 8/10 — 消融分析清晰,实验设计合理
相关论文¶
- [CVPR 2025] Curriculum Direct Preference Optimization for Diffusion and Consistency Models
- [ICML 2025] ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization
- [NeurIPS 2025] DP²O-SR: Direct Perceptual Preference Optimization for Real-World Image Super-Resolution
- [CVPR 2025] Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization
- [ACL 2025] DiffPO: Diffusion Alignment with Direct Preference Optimization