Right Now, Wrong Then: Non-Stationary Direct Preference Optimization under Preference Drift¶
会议: ICML 2025
arXiv: 2407.18676
代码: 有(论文中提及提供代码,具体链接见论文脚注)
领域: LLM对齐/RLHF
关键词: 偏好漂移, 非平稳优化, DPO, Bradley-Terry模型, 偏好对齐
一句话总结¶
提出 NS-DPO,通过 Dynamic Bradley-Terry 模型引入单一指数衰减参数 γ 对训练数据进行时序加权,使 DPO 在偏好随时间漂移的场景下仍能鲁棒对齐,同时在平稳场景下不损失性能。
研究背景与动机¶
现有偏好优化算法(DPO、IPO 等)假设人类偏好是平稳的(stationary),即不随时间变化。但现实中偏好会因多种原因发生漂移:
- 新信息出现:社会事件、科学发现改变公众观点
- 社会文化趋势:道德标准、安全要求随时代演进
- 数据收集时间跨度增大:长期收集的偏好数据集中必然包含变化的偏好
当偏好漂移发生时,平稳算法将其视为标签噪声,对过时数据和新鲜数据同等对待,导致模型严重错位。已有研究表明数据质量是微调性能的关键因素,因此偏好漂移会极大影响 LLM 对齐效果。
核心问题:如何在仅知道总偏好漂移上界(而不知具体哪些偏好变了)的情况下,设计计算高效的偏好优化算法?
方法详解¶
整体框架¶
NS-DPO 的核心思路非常优雅:在标准 DPO 损失函数中引入一个指数时序衰减权重 \(\gamma^{T-t_i-1}\),使得最近的数据点权重最大,越老的数据权重越小。整个修改仅增加一个超参数 γ。
框架流程:
- 数据集中每个偏好对附带时间戳 \(t_i\)
- 在 DPO 损失中对每个数据点乘以指数衰减权重
- 通过理论分析确定 γ 的最优设置
- 正常训练 LLM 策略
关键设计¶
-
Dynamic Bradley-Terry 模型:将标准 BT 模型扩展为时变版本 \(p(a_i \succ a_i'|x_i, t_i) = \sigma(r(x_i, a_i, t_i) - r(x_i, a_i', t_i))\),奖励函数 \(r(x,a,t)\) 显式依赖时间步 \(t\)。这是首次在直接偏好优化框架中使用动态 BT 模型,捕捉了偏好的时变本质。
-
指数加权损失函数:NS-DPO 的损失定义为 \(\mathcal{L}^{NS}(\theta_T) = \sum_{(x_i,a_i,a_i',t_i) \in \mathcal{D}} -\gamma^{T-t_i-1} \log\sigma(\tau h_{\pi_{\theta_T}}(x_i, a_i, a_i'))\),其中 \(\gamma \in (0,1)\) 控制旧数据的折扣速率。当 \(\gamma \to 1\) 时退化为标准 DPO。关键洞察:由于不知道哪些数据点的偏好发生了变化,NS-DPO 对所有旧数据统一降权,这是在不确定性下的稳健策略。
-
变差预算(Variation Budget)假设:不假设偏好如何漂移,仅假设最优策略参数 \(\theta_t^*\) 的总漂移上界为 \(B_T\),即 \(\sum_{t=1}^{T-1}\|\theta_{t+1}^* - \theta_t^*\|_2 \leq B_T\)。这是一个温和假设,允许任意时刻发生剧烈变化,只要总变化受限。
损失函数 / 训练策略¶
NS-DPO 目标函数推导:
与标准 DPO 类似,先定义时间步 \(T\) 的 RLHF 目标 \(\mathcal{J}_T(\pi)\),推导出隐式奖励 \(r(x,a,T) = \tau\log\frac{\pi_T^*(a|x)}{\pi_{ref}(a|x)} + \tau\log Z_T^*(x)\),再代入动态 BT 模型的指数加权负对数似然,得到最终的 NS-DPO 损失。
正则化版本(理论分析用):\(\mathcal{L}_{reg}^{NS}(\theta) = \frac{1}{n}\mathcal{L}^{NS}(\theta) + \frac{\lambda c_{\sigma,\tau}\tau^2}{2}\|\theta\|^2\)
最优 γ 的选择:理论分析表明当 \(\gamma = 1 - (B_T/T)^{3/4}\) 时可获得最优 regret bound。实际中,Llama-2-7b 使用 \(\gamma=0.95\);Llama-3.2-1b 使用 \(\gamma=0.85\);TV-HH 数据集上根据变化点 \(t_{cp}\) 自适应调整 \(\gamma = 1 - \frac{1}{(100-t_{cp})\log(100)}\)。
梯度分析:NS-DPO 仅调整梯度的缩放项(通过时序折扣进一步降低远离 \(T\) 的数据点的梯度贡献),不改变梯度方向。具体地,梯度中的 \(\gamma^{T-t_i-1}\sigma(-h_\theta)\) 缩放项使旧数据的梯度贡献指数衰减。
理论保证:
- 估计误差 = 学习误差 + 跟踪误差:学习项 \(O(\sqrt{d/n})\) 与标准 DPO 相同,跟踪项 \(O(\sqrt{T/(1-\gamma)^3} \cdot B_T)\) 刻画非平稳代价
- Regret bound:当 \(\gamma = 1-(B_T/T)^{3/4}\) 时,\(R_T^{off} = \tilde{O}(dB_T^{3/4}n^{-1/4})\)
- 平稳恢复:当 \(B_T \to 0\) 时,恢复标准 \(O(n^{-1/2})\) 复杂度,说明 NS-DPO 严格推广了 DPO 的理论
实验关键数据¶
主实验¶
实验在多个非平稳偏好数据集上验证 NS-DPO 的有效性:
| 数据集 (ρ_diff, t_cp) | 模型 | 指标 | NS-DPO | DPO | SW-DPO |
|---|---|---|---|---|---|
| UltraFeedback-LM (0.7, 21) | Llama-3.2-1b-it | LCWR | 8.93 | 7.29 | 6.09 |
| UltraFeedback-LM (0.7, 51) | Llama-3.2-1b-it | LCWR | 8.38 | 7.85 | 4.93 |
| UltraFeedback-LM (0.7, 81) | Llama-3.2-1b-it | LCWR | 7.85 | 7.17 | 4.63 |
| UltraFeedback-LM (1.0, 21) | Llama-3.2-1b-it | LCWR | 9.00 | 8.23 | 6.71 |
| UltraFeedback-LM (1.0, 51) | Llama-3.2-1b-it | LCWR | 7.41 | 6.99 | 5.59 |
| UltraFeedback-LM (1.0, 81) | Llama-3.2-1b-it | LCWR | 7.36 | 6.49 | 4.83 |
| UltraFeedback-LM (平稳) | Llama-3.2-1b-it | LCWR | 9.12 | 8.81 | 8.81 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| γ=0.5~0.9(合成实验) | Reward accuracy >80% | γ 在大范围内表现稳定 |
| γ>0.97 | 性能退化接近 DPO | γ 过大使折扣失效,退化为平稳 DPO |
| SW-DPO (w=33) | 最终精度≈NS-DPO | 但收敛速度显著慢于 NS-DPO |
| SW-DPO (w=50) | 性能下降 | 窗口过大引入过时数据 |
| tDPO(prompt加时间信息) | ≈DPO | ICL 方式无法有效处理偏好漂移 |
| 平稳数据集 (tcp=0) | NS-DPO ≈ DPO | 无偏好漂移时不损失性能 |
| 渐变偏好漂移(TV-HH) | NS-DPO > DPO +10% | 渐变漂移场景同样显著优于基线 |
| 2C NSGO (US→Germany) | NS-DPO >60%, DPO ~55% | 文化偏好渐变中差距约10% |
关键发现¶
- 变化点越晚,NS-DPO 优势越大:当偏好变化发生在较晚的时间步(tcp=81)时,NS-DPO 与 DPO 的差距最大。因为此时大部分数据带有旧偏好,DPO 被错误标签"淹没"
- ρ_diff 越大,NS-DPO 越有价值:当更多数据点的偏好发生翻转(ρ_diff=0.9),非平稳算法的收益最大
- 平稳场景无副作用:在无漂移数据上 NS-DPO 性能匹配甚至轻微超过 DPO(LCWR 9.12 vs 8.81)
- Win rate 实验:Llama-3.2-1b-it 在 TV-HH 上,后期变化点 NS-DPO 的 win rate 稳定 >0.5 战胜 DPO
- NS-DPO 对 γ 鲁棒:合成实验中 γ∈[0.5, 0.97] 均保持 >80% 准确率,而 SW-DPO 对窗口大小更敏感
亮点与洞察¶
- 极简改动,高度实用:仅在 DPO 损失中加一个 \(\gamma^{T-t_i-1}\) 权重,实现难度极低,任何使用 DPO 的代码库都可快速集成
- 理论与实践双重保证:不仅有 log-linear 设定下的 regret bound,还在多个 LLM 规模实验中验证效果
- 默认可用策略:由于平稳场景无性能损失,NS-DPO 可作为 DPO 的"默认安全替代",当不确定数据是否含漂移时直接使用
- 非平稳数据集构造方法:论文提出的多种构造非平稳偏好数据集的方法(突变型/渐变型、多奖励模型切换、跨文化偏好插值)本身就是有价值的实验基础设施
局限与展望¶
- 需要时间戳信息:NS-DPO 依赖数据点的时间标记,而现有大多数偏好数据集不提供此信息,限制了直接应用
- γ 的选择仍需先验:虽然理论给出最优 γ 需要 \(B_T\),但实际中 \(B_T\) 未知,γ 需要调参
- 仅考虑离线场景:论文聚焦离线设定,未扩展到 online RLHF 或迭代对齐场景(虽然提到可扩展)
- 可能放大新数据偏见:NS-DPO 重视新数据,如果新数据本身有偏见,会被放大
- 理论分析限于 log-linear 策略:实际 LLM 是深度神经网络,理论保证的适用性有局限
相关工作与启发¶
- DPO 系列:Rafailov et al. 2024 (DPO), Azar et al. 2024 (IPO), SimPO, ORPO 等都未考虑时变偏好
- 非平稳 bandit:Russac et al. 2019 的指数加权策略是本文方法的直接灵感来源
- Carroll et al. 2024:讨论了偏好漂移下 LLM 对齐的多种目标设定,但未给出实际算法
- 启发:该思路可扩展到多目标对齐(不同维度偏好以不同速率漂移)、在线持续对齐(模型部署后持续接收新偏好反馈)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 问题提出有洞察,但技术手段(指数衰减加权)属于经典策略的迁移
- 实验充分度: ⭐⭐⭐⭐⭐ — 4个数据集、2种LLM、突变/渐变/文化漂移、合成验证理论,覆盖全面
- 写作质量: ⭐⭐⭐⭐⭐ — 理论推导严谨,实验说明清晰,问题动机论述compelling
- 实用价值: ⭐⭐⭐⭐ — 改动极简且无副作用,但实际数据缺乏时间戳是落地障碍
相关论文¶
- [ICML 2025] TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization
- [ICML 2025] D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples
- [NeurIPS 2025] Rethinking Direct Preference Optimization in Diffusion Models
- [ICML 2025] ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization
- [NeurIPS 2025] On Extending Direct Preference Optimization to Accommodate Ties