Generalizing while Preserving Monotonicity in Comparison-based Preference Learning Models¶
会议: NeurIPS 2025
arXiv: 2506.08616
代码: github.com/pevab/gbtlab2
领域: llm_alignment
关键词: preference learning, monotonicity, Bradley-Terry, diffusion prior, alignment
一句话总结¶
提出 Linear GBT with Diffusion Prior,一类在保证单调性(偏好比较后被偏好方的分数不会反常下降)的同时能泛化到未比较数据的偏好学习模型,首次正面回答了"泛化与单调性能否兼得"的核心问题。
研究背景与动机¶
偏好学习(如 RLHF、DPO)在 LLM 对齐中至关重要,但这些算法存在一个反直觉的"bug":当你告诉模型"A 优于 B"时,A 的分数可能反而下降。
用一个极简例子说明:线性模型 \(\beta \in \mathbb{R}^2\),两个 item 嵌入 \(x_a=(1,0)\), \(x_b=(2,0)\)。比较 \(a \succ b\) 会推动 \(\beta_1\) 下降(因为 \(x_{a1} < x_{b1}\)),但 \(a\) 的分数 \(\beta^T x_a = \beta_1\) 因此也下降。更关键的是,第三个 item \(c\) 嵌入 \((0,1)\) 的分数完全不受影响。
核心矛盾: - 经典 (Generalized) Bradley-Terry 模型能保证单调性,但无法泛化——未被比较的 item 永远得分为 0 - 带嵌入的线性/非线性模型(包括 RLHF/DPO)能泛化,但无法保证单调性
研究问题:能否设计一个既能泛化又保证单调性的偏好学习算法?
方法详解¶
整体框架¶
Linear GBT with Diffusion Prior 在经典 GBT 基础上做两个扩展:
- 嵌入 (Embeddings):每个备选方案 \(a\) 有嵌入 \(x_a \in \mathbb{R}^D\),分数建模为线性函数 \(\theta_a(\beta) = x_a^T \beta\)
- 扩散先验 (Diffusion Prior):正则化项引入 Laplacian 矩阵 \(L\) 编码备选方案之间的先验相似度
关键设计¶
损失函数:
其中 \(\Phi_f(\theta) = \log\int_{\mathfrak{R}} e^{r\theta} df(r)\) 是 root law \(f\) 的累积生成函数。Laplacian 正则化项 \(\sum_{ab} \theta_a L_{ab} \theta_b = \frac{1}{2}\sum_{a \neq b}|L_{ab}|(\theta_a - \theta_b)^2\) 鼓励相似备选方案具有相似分数。
单调性保证的核心定理链:
-
Good Embedding:嵌入 \(x\) 是 good 的当且仅当对所有 Laplacian 矩阵 \(Y\) 和所有 \((a,b)\):\(e_a^T(I + XY)^{-1}X e_{a\ominus b} \geq 0\)
-
Diffusion Embedding:嵌入 \(x\) 是 diffusion embedding 当且仅当 Gram 矩阵 \(X_\lambda = x^T x + \lambda I\) 的逆 \(X_\lambda^{-1}\) 对所有 \(\lambda > 0\) 都是 super-Laplacian 矩阵
-
推导链:Diffusion Embedding → Good Embedding → 单调性
Theorem 1 (主定理):对任意 root law \(f\)、\(\sigma > 0\)、diffusion embedding \(x\) 和 Laplacian \(L\),\(\text{GBT}_{f,\sigma,x,L}\) 是单调的。
损失函数 / 训练策略¶
微分分析框架:引入 Smoothed Loss \(\mathcal{L}_\lambda\),利用积分表达式:
对 update 操作得到导数公式:
对 append 操作得到类似公式,多出一个 \(\Phi_f''\) 项。单调性归结为验证矩阵 \((I + X(L+\tilde{H}))^{-1}X\) 在 \(e_a^T \cdot e_{a\ominus b}\) 方向上非负。
One-Hot Encoding 特例 (Theorem 2):类别 one-hot 编码是 diffusion embedding,分数分解为 \(\theta_a = \gamma_{d(a)} + s^2 \cdot \alpha_a\)(类别分数 + 残差)。
实验关键数据¶
主实验¶
随机嵌入的 Goodness 概率: - 高斯 i.i.d. 嵌入 \(x\):\(D/A\) 大时概率高,\(A/D\) 大时急剧下降 - 拼接 \([I, x]^T\) 后:goodness 概率显著提升
nMSE 对比(\(A=25\), \(N=500\), uniform root law, 100 seeds):
| 嵌入方式 | nMSE 表现 |
|---|---|
| \([I, x]^T\)(完整嵌入) | 最优——融合类别和特征信息 |
| \(I\)(经典 GBT) | 小 \(D\) 时好,大 \(D\) 时差 |
| \(x\)(仅特征) | 小 \(D\) 时差,大 \(D\) 时好 |
消融实验¶
数据效率(\(A=20\), \(D=10\), one-hot 编码, 1000 seeds): - GBT with one-hot encoding 所需比较数量约为经典 GBT 的 1/2~1/3 即可达到相同 nMSE - 说明结构化嵌入可大幅减少数据需求
关键发现¶
- 随机嵌入大概率不满足 goodness 条件,单调性远非自动保证
- 拼接单位矩阵是简单有效的修复策略(理论支撑 Proposition 9)
- 完整嵌入模型 \([I,x]^T\) 同时利用 GBT 和特征学习的优势,在不同 \(D/A\) 比下始终表现最好
- One-hot 结构化嵌入在数据稀缺时显著降低估计误差
亮点与洞察¶
- 首次正面回答了泛化与单调性能否兼得的问题(答案是肯定的)
- Diffusion embedding 概念优美——将比较视为"热泵",分数传播类似热扩散
- 将代数条件与图论(Laplacian)和物理(扩散动力学)联系起来,理论深度出色
- 实用意义:对社交媒体内容评分(如 Tournesol 平台)、推荐系统等直接适用
- 明确指出 RLHF/DPO 等主流方法缺乏单调性保证,有助于引发社区对这一问题的重视
- 一个简单的修复方案:将嵌入与单位矩阵拼接即可大幅提升 goodness 概率
局限性 / 可改进方向¶
- 理论保证仅限于 diffusion embedding,更一般的嵌入类(如神经网络生成的)无法保证
- 仅考虑线性模型,而实际 RLHF/DPO 使用非线性模型(Transformer)
- 实验规模较小(合成数据为主),真实大规模偏好数据验证不足
- good embedding 的判定条件对实践者来说不够直观
- 未讨论如何将理论扩展到 DPO / RLHF 等基于梯度的非线性优化框架
- Goodness 判定为 NP-hard 或不可高效判定的可能性未讨论
相关工作与启发¶
- 经典 GBT (Fageot et al., AAAI 2024) 证明了单调性但不能泛化,本文是其自然延伸
- Bareilles et al. (2025) 证明非线性模型只有弱单调性(局部 pairwise),强化了线性+diffusion 的动机
- Chen et al. (NeurIPS 2024) 实证发现 DPO 排序不一致性,与本文理论互相印证
- 对 Tournesol 等协作评分平台有直接应用价值:保证用户偏好不会被"负反馈"
- Super-Laplacian 矩阵和图扩散的数学工具有潜力扩展到更复杂的社会选择问题
评分¶
- 创新性:⭐⭐⭐⭐⭐ — 首次解决泛化+单调性兼得问题
- 理论深度:⭐⭐⭐⭐⭐ — 完整的证明链,从 diffusion embedding 到单调性
- 实验充分度:⭐⭐⭐ — 合成实验为主,真实数据验证较少
- 实用性:⭐⭐⭐⭐ — 对社会选择和推荐系统有直接指导
- 综合评价:8.0/10