On Extending Direct Preference Optimization to Accommodate Ties¶

会议: NeurIPS 2025
arXiv: 2409.17431
代码: 无
领域: LLM对齐 / 偏好优化
关键词: DPO, preference optimization, ties, Bradley-Terry, Rao-Kupper, Davidson model

一句话总结¶

将 DPO 中的 Bradley-Terry 偏好模型替换为 Rao-Kupper 和 Davidson 扩展，使偏好优化能够显式建模"平局"数据，避免丢弃模糊偏好对，在翻译和数学推理上获得更好的正则化和性能。

研究背景与动机¶

领域现状：DPO 基于 Bradley-Terry 模型，要求每对训练数据必须有明确的胜负关系 \(y_w \succ y_l\)。实践中（如 Llama 3、Qwen2），会大量丢弃标注者难以区分优劣的"平局"数据。
现有痛点：丢弃平局数据是一种浪费——这些数据收集成本高，且确实包含有用信息（两者质量接近本身就是一种偏好信号）。直接将平局数据作为随机胜负塞入 DPO 会导致性能下降。
核心矛盾：Bradley-Terry 模型只有两个outcomes（\(y_i\) 赢或 \(y_j\) 赢），没有给"平局"留出概率空间。当 \(\lambda_i \neq \lambda_j\) 时，模型永远偏向更强的一方。
本文要解决什么？ 让 DPO 能正确利用平局数据，既不丢弃也不降低性能。
切入角度：从经典配对比较理论出发，Rao-Kupper (1967) 和 Davidson (1970) 早已提出了容纳平局的 Bradley-Terry 扩展——直接嵌入 DPO 框架即可。
核心idea一句话：用经典统计中的平局感知偏好模型替换 DPO 的 Bradley-Terry 模型，使优化目标对胜负对增大reward margin，对平局对驱动reward margin趋近零。

方法详解¶

整体框架¶

输入为带标记的偏好数据集：每对 \((x, y_w, y_l)\) 附带一个标志 \(t \in \{0, 1\}\)，\(t=0\) 表示明确偏好，\(t=1\) 表示平局。算法输出为训练后的策略 \(\pi_\theta\)。损失函数由两部分组成：对胜负对最大化偏好对数似然，对平局对最大化平局对数似然。

关键设计¶

Rao-Kupper 模型 (DPO-RK):
做什么：引入感知阈值 \(\alpha_{RK}\)，当reward差距小于阈值时视为平局
核心思路：胜利概率 \(p^{RK}(y_w \succ y_l) = \sigma(d_\theta - \alpha_{RK})\)，相当于将 DPO 的sigmoid右移 \(\alpha_{RK}\)。平局概率由两端sigmoid的乘积给出。对胜负对，梯度推动 \(d_\theta\) 增大；对平局对，梯度驱动 \(d_\theta\) 趋近零
设计动机：Rao-Kupper从"感知分辨率"出发，认为两者差距太小时评判者无法区分，这很符合偏好标注的实际情况
Davidson 模型 (DPO-D):
做什么：通过几何平均分配平局概率
核心思路：\(p^D(y_w \succ y_l) = \frac{1}{1 + e^{-d_\theta} + 2\nu_D e^{-d_\theta/2}}\)。平局概率正比于两者强度的几何平均。满足 Luce 选择公理 \(p(y_i \succ y_j)/p(y_j \succ y_i) = \lambda_i/\lambda_j\)（Rao-Kupper不满足此性质）
设计动机：Davidson从公理化角度推导，确保比较的逻辑一致性
平局的正则化效应（理论解释）:
做什么：用理想 DPO 策略理论解释为什么平局数据能增强正则化
核心思路：对于真实偏好概率 \(\gamma = 0.5\) 的平局对，理想策略应满足 \(\pi^*(y_w|x)/\pi^*(y_l|x) = \pi_{ref}(y_w|x)/\pi_{ref}(y_l|x)\)，即策略不应偏离参考模型。这本质上是对 \(\pi_\theta\) 的正则化约束——50%数据要求策略保持参考模型的行为
设计动机：解释了为什么即使原始 DPO 加入平局也会出现更低的 KL 散度

损失函数 / 训练策略¶

\(\mathcal{L}(\pi_\theta; \pi_{ref}) = -\mathbb{E}_{t=0}[\log p_\theta(y_w \succ y_l)] - \mathbb{E}_{t=1}[\log p_\theta(y_w \sim y_l)]\)

超参数选择：\(\nu_{RK} = 3\), \(\nu_D = 1\)，对应"同等实力的选手50%概率平局"的先验。实验表明结果对这些参数不敏感。

实验关键数据¶

主实验¶

三个任务：WMT21 ZH-EN 翻译、IWSLT17 FR-EN 翻译、TL;DR 摘要

方法	WMT21 BLEURT	IWSLT17 BLEURT	TL;DR Win-Rate
DPO(CP)	基线最优	基线最优	基线最优
DPO(CP+TP)	明显下降	明显下降	下降
DPO-RK(CP+TP)	≈DPO(CP)，KL更低	≈DPO(CP)，KL更低	≈DPO(CP)，KL更低
DPO-D(CP+TP)	≈DPO(CP)，KL更低	≈DPO(CP)，KL更低	≈DPO(CP)，KL更低

在数学推理（GSM8K/MATH）上的结果： | 方法 | GSM8K Pass@1 | MATH Pass@1 | |------|-------------|-------------| | DPO | 81.4 | 44.1 | | DPO-RK | 82.7 | 45.3 | | DPO-D | 82.1 | 44.8 |

消融实验¶

配置	效果	说明
仅CP (原始DPO)	高性能，高KL	标准设置
CP+TP (DPO)	性能下降，低KL	平局损害DPO
CP+TP (DPO-RK/D)	高性能，低KL	正确建模平局
平局比例增加	KL进一步降低	正则化与平局比例成正比

关键发现¶

DPO加入平局数据确实起到正则化作用（降低KL），但同时性能下降；DPO-RK/D保持性能不变的同时享受正则化效果
正则化效果与平局数据的比例成正比——翻译任务(50%平局)比TL;DR(12.5%平局)更明显
Rao-Kupper和Davidson两个变体表现相当，对超参数不敏感
在数学推理任务上，利用奖励模型分数差距构造平局数据，DPO-RK 提升了1.3个百分点的GSM8K accuracy

亮点与洞察¶

巧妙的理论连接：将70年代经典统计模型（Rao-Kupper 1967, Davidson 1970）与现代RLHF无缝对接。DPO-RK只需在sigmoid中加一个偏移 \(\alpha_{RK}\)，改动极小但效果显著
理想策略理论解释正则化：通过Chen et al. (2024)的理想DPO策略理论严谨地解释了平局的正则化效应——不是经验观察而是理论推导
实用价值高：对任何使用DPO训练的pipeline，只需将之前丢弃的"模糊"偏好对标记为平局，换用DPO-RK损失，就能免费获得数据利用率+正则化的双重收益

局限性 / 可改进方向¶

实验规模较小（翻译和TL;DR），未在大型LLM（>7B参数）上验证
仅考虑了两种经典模型，是否有更好的平局概率分配方案？
平局的定义依赖于启发式阈值（如BLEURT分差），更好的平局detection方法值得探索
没有与其他处理模糊偏好的方法（如soft labels, label smoothing）做对比

评分¶

新颖性: ⭐⭐⭐⭐ 经典统计模型+现代DPO的结合非常优雅，但从技术角度看并不复杂
实验充分度: ⭐⭐⭐⭐ 三个任务+数学推理，有理论分析支撑，但缺乏大模型实验
写作质量: ⭐⭐⭐⭐⭐ 论文写得清晰流畅，动机、理论、实验环环相扣
价值: ⭐⭐⭐⭐ 高度实用的改进，几乎零成本采用