Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling¶
会议: ICLR 2026
arXiv: 2510.23631
代码: 无
领域: LLM对齐 / 偏好优化
关键词: preference optimization, ranked choice, DPO, Mallows model, multinomial logit, alignment
一句话总结¶
提出 RCPO 框架,将 LLM 对齐从成对偏好扩展到排名选择(ranked choice)建模,通过 MLE 统一了效用模型(MNL)和排名模型(Mallows-RMJ),在 single-best 和 top-k 反馈格式下都优于 DPO 及其变体。
研究背景与动机¶
- 领域现状:DPO 及其变体(SimPO, R-DPO, AlphaPO 等)已成为 LLM 对齐的主流方法,但它们都基于成对偏好——即每个 prompt 只比较两个 response(preferred vs dispreferred)。
- 现有痛点:实际标注中,偏好反馈远比成对比较丰富——InstructGPT 收集 K 个 response 的排名后却将其拆分为 \(\binom{K}{2}\) 对来训练;学术工作通常只保留最高和最低分的两个。这种"成对压缩"丢失了中间排名信息,可能歪曲原始偏好结构。
- 核心矛盾:标注者提供的是多路比较/排名,但训练算法只能消化成对数据——信息浪费和结构扭曲是相互耦合的问题。
- 本文要解决什么? 如何设计一个能直接利用 ranked choice(单选 best、top-k 排名)反馈的对齐框架?
- 切入角度:经济学/运筹学中的离散选择模型(discrete choice models)已有成熟理论来处理多选和排名数据。将 prompt 视为 context、response 视为 item、候选集视为 assortment,LLM 对齐可直接映射为选择模型的 MLE。
- 核心idea一句话:用选择模型理论统一 LLM 偏好优化,DPO 只是 Bradley-Terry 的特例,还有 MNL 和 Mallows 等更强的选择模型可以用。
方法详解¶
整体框架¶
RCPO 将偏好优化形式化为:给定 prompt \(x\)、候选集 \(S\)、标注的 ranked choice \(\mu^k\)(top-k 排名),最大化选择模型 \(g\) 的对数似然:\(\max_{\pi_\theta} \sum_i \log g(\mu_i^k, S_i, \{r_{\pi_\theta}(x_i, y)\}_{y \in S_i})\),其中 \(r_{\pi_\theta}(x,y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}\)。
关键设计¶
- MNL(Multinomial Logit)分支:
- 做什么:将 Bradley-Terry(仅 2 选 1)推广为多选 1 和 top-k。
- Discrete(single-best):\(-\log\sigma(-\log\sum_{y_i \in S \setminus \{y_w\}} \exp(f_\theta(x, y_i, y_w)))\),比 DPO 多了对所有非 preferred response 的 logsumexp。
- Top-k:连乘 k 个阶段的 softmax,每阶段从剩余候选中选出下一个。
-
DPO 是 \(|S|=2, k=1\) 的特例。
-
Mallows-RMJ 分支:
- 做什么:基于排名的选择模型,仅依赖序关系而非基数效用。
- 核心思路:选择概率 \(\propto \phi(x)^{d(y_i, S)}\),其中 \(d\) 是 \(y_i\) 在 \(S\) 中的相对排名位置。ϕ 越小(dispersion 越低),排名越集中。
- Discrete loss 计算有多少 non-preferred 项的 reward 超过 preferred 项。
- Top-k loss 扩展为沿排名链的逐对比较 + 未入选项与第 k 名的比较。
-
关键优势:仅依赖 ordinal 信息(rank order),对 reward 噪声更鲁棒。
-
Sigmoid 平滑:
- Mallows-RMJ 目标含指示函数 \(\mathbb{I}\{\cdot\}\)(不可微),用 sigmoid 近似使其对 SGD 友好。
训练策略¶
在 UltraFeedback 数据集上为每个 prompt 生成多个 response,用 Skywork-Reward-V2 reward model 打分后构建排名。支持 pairwise/single-best/top-k 三种反馈格式。
实验关键数据¶
主实验:Llama-3-8B-Instruct¶
| 方法 | AlpacaEval LC↑ | AlpacaEval WR↑ | Arena-Hard WR↑ | UltraFeedback WR↑ |
|---|---|---|---|---|
| DPO | 41.24 | 40.24 | 32.6 | 62.36 |
| SimPO | 44.15 | 38.84 | 33.5 | 50.17 |
| DPO-AllPairs | 33.02 | 38.47 | 29.6 | 51.95 |
| Mallows-RMJ-Pairwise | 39.33 | 48.71 | - | - |
| MNL-Top-k | - | - | - | - |
多模型验证¶
RCPO 在 Llama-3-8B, Gemma-2-9B, Mistral-7B 上均一致优于或持平 DPO 和 SimPO。
消融实验¶
- DPO-AllPairs(将排名拆成所有成对)性能反而下降,证实了成对压缩的信息扭曲。
- Mallows-RMJ 在 pairwise 设置下就已超越 DPO,说明 rank-based 模型本身更适合偏好学习。
- Top-k 反馈进一步提升性能,验证了更丰富反馈格式的价值。
关键发现¶
- Mallows-RMJ 系列表现最佳,尤其在 AlpacaEval WR 上大幅领先(+8-10 pp),表明 rank-based 模型对 reward 噪声的鲁棒性是关键优势。
- 梯度分析揭示 Mallows-RMJ 会自适应加权:对 dispersion 低的 prompt 给予更大权重,对 reward 接近的对给予更大权重,实现"难样本挖掘"。
- MNL 的多路扩展(从 2 选 1 到 n 选 1)也带来提升,但不如 Mallows-RMJ 显著。
亮点与洞察¶
- 选择模型理论 → LLM 对齐的桥接:将运筹学中成熟的离散选择理论引入 LLM 对齐,为设计新的对齐算法提供了系统化的理论框架。DPO/SimPO/R-DPO 等都可视为该框架的特例。
- Rank-based vs Utility-based 的对比洞察:Mallows-RMJ 仅用序关系建模,比 MNL(依赖精确 reward 数值)更鲁棒。这一发现对 RLHF 实践有启示——当 reward model 噪声大时,rank-based 方法可能更优。
- 信息效率:直接用 top-k 排名训练比拆成 \(\binom{K}{2}\) 对更高效且效果更好,这对偏好数据收集和标注策略有直接指导意义。
局限性 / 可改进方向¶
- 实验主要在 7-9B 模型上进行,缺少更大模型的验证。
- 排名反馈由 reward model 自动生成,未使用真实人类排名标注——reward model 的系统性偏差可能影响结论的外部有效性。
- Mallows-RMJ 的 dispersion 参数 \(\phi(x)\) 用 entropy proxy 估计,准确性未充分验证。
- 论文聚焦 single-best 和 top-k,未探索其他排名模型(如 Plackett-Luce、Thurstone)。
相关工作与启发¶
- vs DPO (Rafailov et al., 2023):DPO = Bradley-Terry + 成对数据,是 RCPO 的特例。RCPO 扩展了偏好格式(多选/排名)和选择模型(MNL/Mallows)两个维度。
- vs SimPO (Meng et al., 2024):SimPO 用 length-normalized log-likelihood 作为 reward,仍限于成对比较。可直接嵌入 RCPO 框架。
- vs Align Once (MLC):MLC 关注跨语言一致性,RCPO 关注偏好反馈的信息效率。两者互补。
评分¶
- 新颖性: ⭐⭐⭐⭐ 将选择模型理论系统性引入 LLM 对齐是新颖的理论贡献
- 实验充分度: ⭐⭐⭐⭐ 3 个模型 × 多基线 × ID/OOD 评估,但仅限 7-9B 规模
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,框架呈现清晰,梯度分析有深度
- 价值: ⭐⭐⭐⭐ 为 LLM 对齐提供了更通用的框架,尤其 Mallows-RMJ 的实践价值高