跳转至

📚 AI Paper Notes

Rethinking Direct Preference Optimization in Diffusion Models

Rethinking Direct Preference Optimization in Diffusion Models¶

会议: AAAI 2026 (Oral)
arXiv: 2505.18736
代码: 有
领域: 对齐RLHF / 扩散模型
关键词: DPO, 扩散模型, 参考模型更新, 时间步感知, T2I偏好对齐

一句话总结¶

提出两个正交改进增强扩散模型偏好优化：(1) 稳定参考模型更新策略放松冻结参考模型并通过正则化鼓励探索；(2) 时间步感知训练策略缓解跨时间步奖励尺度不平衡。二者可嵌入多种偏好优化算法，在人类偏好评估基准上提升SOTA。

研究背景与动机¶

领域现状：从LLM借鉴的DPO等偏好优化方法已扩展到T2I扩散模型，但直接迁移面临扩散特有挑战。
现有痛点：(a) 冻结参考模型限制探索空间；(b) 不同去噪时间步的奖励信号强度差异很大导致训练不平衡。
核心矛盾：放松参考模型增强探索但可能不稳定；不同时间步需要不同权重但现有方法一视同仁。
本文要解决什么？ 在保持稳定性的同时增强扩散DPO的探索能力和训练平衡性。
切入角度：两个可插拔正交策略——参考模型动态更新+时间步感知损失加权。
核心idea一句话：通过参考模型正则化松弛和时间步感知训练，同时解决扩散偏好优化中探索不足和奖励不平衡。

方法详解¶

整体框架¶

输入：成对偏好数据+T2I扩散模型。输出：对齐后模型。两个正交策略可嵌入DPO/IPO等算法。

关键设计¶

稳定参考模型更新策略：
做什么：动态更新参考模型而非保持冻结
核心思路：EMA更新参考模型+正则化损失 \(\mathcal{L}_\text{reg}\) 防止偏离过远
设计动机：放松冻结鼓励探索，正则化维持稳定锚点
时间步感知训练策略：
做什么：缓解跨时间步奖励尺度不平衡
核心思路：分析不同时间步的奖励分布，自适应调整损失权重 \(w(t)\)
设计动机：高噪声时间步信号弱被低噪声时间步主导，需要重新平衡

损失函数 / 训练策略¶

\(\mathcal{L} = w(t) \cdot \mathcal{L}_\text{DPO/IPO} + \lambda \cdot \mathcal{L}_\text{reg}\)

实验关键数据¶

主实验¶

配置	效果	说明
DPO基线	基准	冻结参考+均等权重
+参考更新	提升	探索增强
+时间步感知	提升	训练更平衡
完整方法	SOTA	双策略叠加

消融分析¶

策略	独立效果	说明
仅参考更新	有效	增强探索
仅时间步感知	有效	平衡训练
两者叠加	最优	正交互补

关键发现¶

两策略正交，独立提升且叠加效果最佳
可嵌入DPO/IPO等多种偏好优化算法
AAAI 2026 Oral，审稿评价高
时间步不平衡是扩散DPO独有问题，LLM不存在

亮点与洞察¶

正交改进的可组合性：两策略解决不同问题且互不干扰，模块化设计使其可广泛嵌入现有方法。
时间步维度分析：揭示了扩散模型特有的奖励尺度不平衡，为后续扩散对齐研究提供重要视角。
工程实用性：可直接嵌入现有pipeline无需重新设计训练流程。

局限性 / 可改进方向¶

论文全文不可用，详细消融数据未获取——以上分析主要基于摘要和方法概述
参考更新频率/幅度的敏感性分析很重要，但缺失
是否适用于视频/3D扩散模型等更复杂的生成场景未知
与MaPO（完全无参考）的直接对比未知——两种策略各自的适用条件需要厘清
动态参考更新的额外计算开销（需要周期性更新参考模型）未量化

相关工作与启发¶

vs 标准DPO-Diffusion：标准DPO冻结参考模型导致分布漂移，本文放松+正则化是直接且有效的改进
vs MaPO (AAAI 2026)：MaPO完全移除参考模型，本文保留但动态更新，两种互补思路代表了不同的技术路线
vs DDPO/DRaFT：它们依赖额外的奖励模型，本文用偏好对直接优化，更轻量
与 Canoe 等忠实度对齐方法的对比：Canoe 在语言模型上用 Dual-GRPO 解决类似问题，本文聚焦扩散模型的特殊需求

评分¶

新颖性: ⭐⭐⭐⭐ 两个正交策略（动态参考+LCB正则）各自有独立贡献，组合效果显著
实验充分度: ⭐⭐⭐ 基于摘要信息有限，Oral 论文应有充分实验但无法核实
写作质量: ⭐⭐⭐⭐ AAAI Oral 论文质量，问题动机清晰
价值: ⭐⭐⭐⭐ 可嵌入多种扩散DPO方法，实用性和普适性强

补充说明¶

该工作的方法论和实验设计对相关领域有参考价值
后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
与近期相关工作的结合（如与 RL/MCTS/多模态方法的交叉）有潜在研究价值
建议结合实际应用需求评估该方法的部署可行性和计算效率
数据集和评估指标的选择可能影响结论的普适性，需在更多 benchmark 上交叉验证

补充说明¶

该工作的方法论和实验设计对相关领域有参考价值
后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
与近期相关工作的结合（如与 RL/MCTS/多模态方法的交叉）有潜在研究价值
建议结合实际应用需求评估该方法的部署可行性和计算效率
数据集和评估指标的选择可能影响结论的普适性，需在更多 benchmark 上交叉验证