Generalizing while Preserving Monotonicity in Comparison-based Preference Learning Models¶

会议: NeurIPS 2025
arXiv: 2506.08616
代码: github.com/pevab/gbtlab2
领域: llm_alignment
关键词: preference learning, monotonicity, Bradley-Terry, diffusion prior, alignment

一句话总结¶

提出 Linear GBT with Diffusion Prior，一类在保证单调性（偏好比较后被偏好方的分数不会反常下降）的同时能泛化到未比较数据的偏好学习模型，首次正面回答了"泛化与单调性能否兼得"的核心问题。

研究背景与动机¶

偏好学习（如 RLHF、DPO）在 LLM 对齐中至关重要，但这些算法存在一个反直觉的"bug"：当你告诉模型"A 优于 B"时，A 的分数可能反而下降。

用一个极简例子说明：线性模型 \(\beta \in \mathbb{R}^2\)，两个 item 嵌入 \(x_a=(1,0)\), \(x_b=(2,0)\)。比较 \(a \succ b\) 会推动 \(\beta_1\) 下降（因为 \(x_{a1} < x_{b1}\)），但 \(a\) 的分数 \(\beta^T x_a = \beta_1\) 因此也下降。更关键的是，第三个 item \(c\) 嵌入 \((0,1)\) 的分数完全不受影响。

核心矛盾： - 经典 (Generalized) Bradley-Terry 模型能保证单调性，但无法泛化——未被比较的 item 永远得分为 0 - 带嵌入的线性/非线性模型（包括 RLHF/DPO）能泛化，但无法保证单调性

研究问题：能否设计一个既能泛化又保证单调性的偏好学习算法？

方法详解¶

整体框架¶

Linear GBT with Diffusion Prior 在经典 GBT 基础上做两个扩展：

嵌入 (Embeddings)：每个备选方案 \(a\) 有嵌入 \(x_a \in \mathbb{R}^D\)，分数建模为线性函数 \(\theta_a(\beta) = x_a^T \beta\)
扩散先验 (Diffusion Prior)：正则化项引入 Laplacian 矩阵 \(L\) 编码备选方案之间的先验相似度

关键设计¶

损失函数：

\[\mathcal{L}(\beta|\mathbf{D}) = \underbrace{\frac{1}{2\sigma^2}\sum_d \beta_d^2 + \frac{1}{2}\sum_{ab}\theta_a(\beta)L_{ab}\theta_b(\beta)}_{\text{正则化 } \mathcal{R}(\beta)} + \sum_{(a,b,r)\in\mathbf{D}} \Phi_f(x_{a\ominus b}^T\beta) - r \cdot x_{a\ominus b}^T\beta\]

其中 \(\Phi_f(\theta) = \log\int_{\mathfrak{R}} e^{r\theta} df(r)\) 是 root law \(f\) 的累积生成函数。Laplacian 正则化项 \(\sum_{ab} \theta_a L_{ab} \theta_b = \frac{1}{2}\sum_{a \neq b}|L_{ab}|(\theta_a - \theta_b)^2\) 鼓励相似备选方案具有相似分数。

单调性保证的核心定理链：

Good Embedding：嵌入 \(x\) 是 good 的当且仅当对所有 Laplacian 矩阵 \(Y\) 和所有 \((a,b)\)：\(e_a^T(I + XY)^{-1}X e_{a\ominus b} \geq 0\)
Diffusion Embedding：嵌入 \(x\) 是 diffusion embedding 当且仅当 Gram 矩阵 \(X_\lambda = x^T x + \lambda I\) 的逆 \(X_\lambda^{-1}\) 对所有 \(\lambda > 0\) 都是 super-Laplacian 矩阵
推导链：Diffusion Embedding → Good Embedding → 单调性

Theorem 1 (主定理)：对任意 root law \(f\)、\(\sigma > 0\)、diffusion embedding \(x\) 和 Laplacian \(L\)，\(\text{GBT}_{f,\sigma,x,L}\) 是单调的。

损失函数 / 训练策略¶

微分分析框架：引入 Smoothed Loss \(\mathcal{L}_\lambda\)，利用积分表达式：

\[\theta^*(o(\mathbf{D})) - \theta^*(\mathbf{D}) = \int_0^1 \frac{d\theta_\lambda^*}{d\lambda}(\mathbf{D}, o) d\lambda\]

对 update 操作得到导数公式：

\[\frac{d\theta_{\lambda a}^*}{d\lambda}\bigg|_{\lambda=\mu} = (r-s) \cdot e_a^T(I + X(L+H))^{-1}X e_{a\ominus b}\]

对 append 操作得到类似公式，多出一个 \(\Phi_f''\) 项。单调性归结为验证矩阵 \((I + X(L+\tilde{H}))^{-1}X\) 在 \(e_a^T \cdot e_{a\ominus b}\) 方向上非负。

One-Hot Encoding 特例 (Theorem 2)：类别 one-hot 编码是 diffusion embedding，分数分解为 \(\theta_a = \gamma_{d(a)} + s^2 \cdot \alpha_a\)（类别分数 + 残差）。

实验关键数据¶

主实验¶

随机嵌入的 Goodness 概率： - 高斯 i.i.d. 嵌入 \(x\)：\(D/A\) 大时概率高，\(A/D\) 大时急剧下降 - 拼接 \([I, x]^T\) 后：goodness 概率显著提升

nMSE 对比（\(A=25\), \(N=500\), uniform root law, 100 seeds）：

嵌入方式	nMSE 表现
\([I, x]^T\)（完整嵌入）	最优——融合类别和特征信息
\(I\)（经典 GBT）	小 \(D\) 时好，大 \(D\) 时差
\(x\)（仅特征）	小 \(D\) 时差，大 \(D\) 时好

消融实验¶

数据效率（\(A=20\), \(D=10\), one-hot 编码, 1000 seeds）： - GBT with one-hot encoding 所需比较数量约为经典 GBT 的 1/2~1/3 即可达到相同 nMSE - 说明结构化嵌入可大幅减少数据需求

关键发现¶

随机嵌入大概率不满足 goodness 条件，单调性远非自动保证
拼接单位矩阵是简单有效的修复策略（理论支撑 Proposition 9）
完整嵌入模型 \([I,x]^T\) 同时利用 GBT 和特征学习的优势，在不同 \(D/A\) 比下始终表现最好
One-hot 结构化嵌入在数据稀缺时显著降低估计误差

亮点与洞察¶

首次正面回答了泛化与单调性能否兼得的问题（答案是肯定的）
Diffusion embedding 概念优美——将比较视为"热泵"，分数传播类似热扩散
将代数条件与图论（Laplacian）和物理（扩散动力学）联系起来，理论深度出色
实用意义：对社交媒体内容评分（如 Tournesol 平台）、推荐系统等直接适用
明确指出 RLHF/DPO 等主流方法缺乏单调性保证，有助于引发社区对这一问题的重视
一个简单的修复方案：将嵌入与单位矩阵拼接即可大幅提升 goodness 概率

局限性 / 可改进方向¶

理论保证仅限于 diffusion embedding，更一般的嵌入类（如神经网络生成的）无法保证
仅考虑线性模型，而实际 RLHF/DPO 使用非线性模型（Transformer）
实验规模较小（合成数据为主），真实大规模偏好数据验证不足
good embedding 的判定条件对实践者来说不够直观
未讨论如何将理论扩展到 DPO / RLHF 等基于梯度的非线性优化框架
Goodness 判定为 NP-hard 或不可高效判定的可能性未讨论

评分¶

创新性：⭐⭐⭐⭐⭐ — 首次解决泛化+单调性兼得问题
理论深度：⭐⭐⭐⭐⭐ — 完整的证明链，从 diffusion embedding 到单调性
实验充分度：⭐⭐⭐ — 合成实验为主，真实数据验证较少
实用性：⭐⭐⭐⭐ — 对社会选择和推荐系统有直接指导
综合评价：8.0/10