Rethinking Direct Preference Optimization in Diffusion Models¶
会议: AAAI 2026 (Oral)
arXiv: 2505.18736
代码: 有
领域: 对齐RLHF / 扩散模型
关键词: DPO, 扩散模型, 参考模型更新, 时间步感知, T2I偏好对齐
一句话总结¶
提出两个正交改进增强扩散模型偏好优化:(1) 稳定参考模型更新策略放松冻结参考模型并通过正则化鼓励探索;(2) 时间步感知训练策略缓解跨时间步奖励尺度不平衡。二者可嵌入多种偏好优化算法,在人类偏好评估基准上提升SOTA。
研究背景与动机¶
- 领域现状:从LLM借鉴的DPO等偏好优化方法已扩展到T2I扩散模型,但直接迁移面临扩散特有挑战。
- 现有痛点:(a) 冻结参考模型限制探索空间;(b) 不同去噪时间步的奖励信号强度差异很大导致训练不平衡。
- 核心矛盾:放松参考模型增强探索但可能不稳定;不同时间步需要不同权重但现有方法一视同仁。
- 本文要解决什么? 在保持稳定性的同时增强扩散DPO的探索能力和训练平衡性。
- 切入角度:两个可插拔正交策略——参考模型动态更新+时间步感知损失加权。
- 核心idea一句话:通过参考模型正则化松弛和时间步感知训练,同时解决扩散偏好优化中探索不足和奖励不平衡。
方法详解¶
整体框架¶
输入:成对偏好数据+T2I扩散模型。输出:对齐后模型。两个正交策略可嵌入DPO/IPO等算法。
关键设计¶
- 稳定参考模型更新策略:
- 做什么:动态更新参考模型而非保持冻结
- 核心思路:EMA更新参考模型+正则化损失 \(\mathcal{L}_\text{reg}\) 防止偏离过远
-
设计动机:放松冻结鼓励探索,正则化维持稳定锚点
-
时间步感知训练策略:
- 做什么:缓解跨时间步奖励尺度不平衡
- 核心思路:分析不同时间步的奖励分布,自适应调整损失权重 \(w(t)\)
- 设计动机:高噪声时间步信号弱被低噪声时间步主导,需要重新平衡
损失函数 / 训练策略¶
\(\mathcal{L} = w(t) \cdot \mathcal{L}_\text{DPO/IPO} + \lambda \cdot \mathcal{L}_\text{reg}\)
实验关键数据¶
主实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| DPO基线 | 基准 | 冻结参考+均等权重 |
| +参考更新 | 提升 | 探索增强 |
| +时间步感知 | 提升 | 训练更平衡 |
| 完整方法 | SOTA | 双策略叠加 |
消融分析¶
| 策略 | 独立效果 | 说明 |
|---|---|---|
| 仅参考更新 | 有效 | 增强探索 |
| 仅时间步感知 | 有效 | 平衡训练 |
| 两者叠加 | 最优 | 正交互补 |
关键发现¶
- 两策略正交,独立提升且叠加效果最佳
- 可嵌入DPO/IPO等多种偏好优化算法
- AAAI 2026 Oral,审稿评价高
- 时间步不平衡是扩散DPO独有问题,LLM不存在
亮点与洞察¶
- 正交改进的可组合性:两策略解决不同问题且互不干扰,模块化设计使其可广泛嵌入现有方法。
- 时间步维度分析:揭示了扩散模型特有的奖励尺度不平衡,为后续扩散对齐研究提供重要视角。
- 工程实用性:可直接嵌入现有pipeline无需重新设计训练流程。
局限性 / 可改进方向¶
- 论文全文不可用,详细消融数据未获取——以上分析主要基于摘要和方法概述
- 参考更新频率/幅度的敏感性分析很重要,但缺失
- 是否适用于视频/3D扩散模型等更复杂的生成场景未知
- 与MaPO(完全无参考)的直接对比未知——两种策略各自的适用条件需要厘清
- 动态参考更新的额外计算开销(需要周期性更新参考模型)未量化
相关工作与启发¶
- vs 标准DPO-Diffusion:标准DPO冻结参考模型导致分布漂移,本文放松+正则化是直接且有效的改进
- vs MaPO (AAAI 2026):MaPO完全移除参考模型,本文保留但动态更新,两种互补思路代表了不同的技术路线
- vs DDPO/DRaFT:它们依赖额外的奖励模型,本文用偏好对直接优化,更轻量
- 与 Canoe 等忠实度对齐方法的对比:Canoe 在语言模型上用 Dual-GRPO 解决类似问题,本文聚焦扩散模型的特殊需求
评分¶
- 新颖性: ⭐⭐⭐⭐ 两个正交策略(动态参考+LCB正则)各自有独立贡献,组合效果显著
- 实验充分度: ⭐⭐⭐ 基于摘要信息有限,Oral 论文应有充分实验但无法核实
- 写作质量: ⭐⭐⭐⭐ AAAI Oral 论文质量,问题动机清晰
- 价值: ⭐⭐⭐⭐ 可嵌入多种扩散DPO方法,实用性和普适性强
补充说明¶
- 该工作的方法论和实验设计对相关领域有参考价值
- 后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
- 与近期相关工作的结合(如与 RL/MCTS/多模态方法的交叉)有潜在研究价值
- 建议结合实际应用需求评估该方法的部署可行性和计算效率
- 数据集和评估指标的选择可能影响结论的普适性,需在更多 benchmark 上交叉验证
补充说明¶
- 该工作的方法论和实验设计对相关领域有参考价值
- 后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
- 与近期相关工作的结合(如与 RL/MCTS/多模态方法的交叉)有潜在研究价值
- 建议结合实际应用需求评估该方法的部署可行性和计算效率
- 数据集和评估指标的选择可能影响结论的普适性,需在更多 benchmark 上交叉验证