跳转至

Rethinking Direct Preference Optimization in Diffusion Models

会议: AAAI 2026 (Oral)
arXiv: 2505.18736
代码: 有
领域: 对齐RLHF / 扩散模型
关键词: DPO, 扩散模型, 参考模型更新, 时间步感知, T2I偏好对齐

一句话总结

提出两个正交改进增强扩散模型偏好优化:(1) 稳定参考模型更新策略放松冻结参考模型并通过正则化鼓励探索;(2) 时间步感知训练策略缓解跨时间步奖励尺度不平衡。二者可嵌入多种偏好优化算法,在人类偏好评估基准上提升SOTA。

研究背景与动机

  1. 领域现状:从LLM借鉴的DPO等偏好优化方法已扩展到T2I扩散模型,但直接迁移面临扩散特有挑战。
  2. 现有痛点:(a) 冻结参考模型限制探索空间;(b) 不同去噪时间步的奖励信号强度差异很大导致训练不平衡。
  3. 核心矛盾:放松参考模型增强探索但可能不稳定;不同时间步需要不同权重但现有方法一视同仁。
  4. 本文要解决什么? 在保持稳定性的同时增强扩散DPO的探索能力和训练平衡性。
  5. 切入角度:两个可插拔正交策略——参考模型动态更新+时间步感知损失加权。
  6. 核心idea一句话:通过参考模型正则化松弛和时间步感知训练,同时解决扩散偏好优化中探索不足和奖励不平衡。

方法详解

整体框架

输入:成对偏好数据+T2I扩散模型。输出:对齐后模型。两个正交策略可嵌入DPO/IPO等算法。

关键设计

  1. 稳定参考模型更新策略
  2. 做什么:动态更新参考模型而非保持冻结
  3. 核心思路:EMA更新参考模型+正则化损失 \(\mathcal{L}_\text{reg}\) 防止偏离过远
  4. 设计动机:放松冻结鼓励探索,正则化维持稳定锚点

  5. 时间步感知训练策略

  6. 做什么:缓解跨时间步奖励尺度不平衡
  7. 核心思路:分析不同时间步的奖励分布,自适应调整损失权重 \(w(t)\)
  8. 设计动机:高噪声时间步信号弱被低噪声时间步主导,需要重新平衡

损失函数 / 训练策略

\(\mathcal{L} = w(t) \cdot \mathcal{L}_\text{DPO/IPO} + \lambda \cdot \mathcal{L}_\text{reg}\)

实验关键数据

主实验

配置 效果 说明
DPO基线 基准 冻结参考+均等权重
+参考更新 提升 探索增强
+时间步感知 提升 训练更平衡
完整方法 SOTA 双策略叠加

消融分析

策略 独立效果 说明
仅参考更新 有效 增强探索
仅时间步感知 有效 平衡训练
两者叠加 最优 正交互补

关键发现

  • 两策略正交,独立提升且叠加效果最佳
  • 可嵌入DPO/IPO等多种偏好优化算法
  • AAAI 2026 Oral,审稿评价高
  • 时间步不平衡是扩散DPO独有问题,LLM不存在

亮点与洞察

  • 正交改进的可组合性:两策略解决不同问题且互不干扰,模块化设计使其可广泛嵌入现有方法。
  • 时间步维度分析:揭示了扩散模型特有的奖励尺度不平衡,为后续扩散对齐研究提供重要视角。
  • 工程实用性:可直接嵌入现有pipeline无需重新设计训练流程。

局限性 / 可改进方向

  • 论文全文不可用,详细消融数据未获取——以上分析主要基于摘要和方法概述
  • 参考更新频率/幅度的敏感性分析很重要,但缺失
  • 是否适用于视频/3D扩散模型等更复杂的生成场景未知
  • 与MaPO(完全无参考)的直接对比未知——两种策略各自的适用条件需要厘清
  • 动态参考更新的额外计算开销(需要周期性更新参考模型)未量化

相关工作与启发

  • vs 标准DPO-Diffusion:标准DPO冻结参考模型导致分布漂移,本文放松+正则化是直接且有效的改进
  • vs MaPO (AAAI 2026):MaPO完全移除参考模型,本文保留但动态更新,两种互补思路代表了不同的技术路线
  • vs DDPO/DRaFT:它们依赖额外的奖励模型,本文用偏好对直接优化,更轻量
  • 与 Canoe 等忠实度对齐方法的对比:Canoe 在语言模型上用 Dual-GRPO 解决类似问题,本文聚焦扩散模型的特殊需求

评分

  • 新颖性: ⭐⭐⭐⭐ 两个正交策略(动态参考+LCB正则)各自有独立贡献,组合效果显著
  • 实验充分度: ⭐⭐⭐ 基于摘要信息有限,Oral 论文应有充分实验但无法核实
  • 写作质量: ⭐⭐⭐⭐ AAAI Oral 论文质量,问题动机清晰
  • 价值: ⭐⭐⭐⭐ 可嵌入多种扩散DPO方法,实用性和普适性强

补充说明

  • 该工作的方法论和实验设计对相关领域有参考价值
  • 后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
  • 与近期相关工作的结合(如与 RL/MCTS/多模态方法的交叉)有潜在研究价值
  • 建议结合实际应用需求评估该方法的部署可行性和计算效率
  • 数据集和评估指标的选择可能影响结论的普适性,需在更多 benchmark 上交叉验证

补充说明

  • 该工作的方法论和实验设计对相关领域有参考价值
  • 后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
  • 与近期相关工作的结合(如与 RL/MCTS/多模态方法的交叉)有潜在研究价值
  • 建议结合实际应用需求评估该方法的部署可行性和计算效率
  • 数据集和评估指标的选择可能影响结论的普适性,需在更多 benchmark 上交叉验证