CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges¶

会议: ACL 2025
arXiv: 2410.15393
代码: github.com/CSHaitao/CalibraEval
领域: LLM/NLP
关键词: LLM评估, 选择偏差, 校准, 非参数算法, 去偏

一句话总结¶

提出 CalibraEval，一种无标签的推理时去偏方法，通过将去偏问题形式化为优化任务，利用非参数保序算法（NOA）学习校准函数，将 LLM 评判器的观测概率分布映射到无偏分布，有效缓解 LLM-as-Judge 中的选择偏差。

研究背景与动机¶

"LLMs-as-Judges"范式利用强大的 LLM（如 GPT-4）对生成文本质量进行自动评估，尤其在成对比较场景中被广泛应用。然而，LLM 评判器存在严重的选择偏差问题：

位置偏差（Position Bias）：LLM 倾向于偏好特定位置（如第一个或最后一个）的选项

Token 偏差（Token Bias）：LLM 可能为特定选项标识符（如 A 或 B）赋予更高概率

这两种偏差共同构成了选择偏差，导致交换选项位置或标识符后评估结果不一致，严重损害评估的有效性和公平性。

现有解决方案的不足： - 排除不一致判断或标记为"平局"会丢失评估信息 - 多轮交互/讨论方法成本高且效果不确定 - Pride 方法假设偏差与无偏分布为简单线性乘法关系，过于简化 - 有监督方法需要标签数据，可扩展性差

方法详解¶

整体框架¶

CalibraEval 的核心思路是：不直接建模偏差的产生机制（即 \(f(\cdot)\) 的精确形式），而是学习一个校准函数 \(g(\cdot)\)，将观测到的有偏概率分布直接映射到无偏分布：

\[P_{debiased}(t_i|I,X_0) = g(P_{observed}(t_i|I,X_0))\]

关键设计¶

四种组合构造优化目标：对于成对比较中的两个选项 \(o_1, o_2\) 和两个标识符 \(t_1, t_2\)，构造四种排列组合（默认顺序、交换位置、交换标识符、同时交换），利用"无偏评判器在四种组合下应给出一致结果"这一直觉建立优化目标：

\(\min_{g \in \mathcal{G}} \sum_{i=1}^{K} [g(s_0^i) + g(s_2^i) - 1]^2 + [g(s_0^i) - g(s_1^i)]^2 - \lambda[g(s_0^i) - g(s_2^i)]^2\)
- 第一项确保交换标识符后判断一致
- 第二项确保交换位置后判断一致
- 第三项为正则化项，防止收敛到平凡解 \(g(\cdot) = 0.5\)
非参数保序算法（NOA）：解决上述 NP 优化问题的关键算法。核心假设是校准函数 \(g(\cdot)\) 对同一标识符保序——更高的观测概率应对应更高的无偏概率。具体步骤：
- 收集估计集中 K 个样本的三种概率值（默认、交换位置、交换标识符）
- 合并并排序所有概率值，附加边界条件 \(z_0=0, z_M=1\)
- 引入参数 \(d_k\) 初始化为 \(z_k\)，通过 softmax 式表达定义保序映射函数： \(g(z_k) = \frac{\sum_{i=0}^{k} \exp(d_i)}{\sum_{i=0}^{M} \exp(d_i)}\)
- 使用梯度下降迭代优化参数 \(d_k\)，每次迭代后归一化确保唯一解
- 收敛后，用加权最小二乘 + PAVA 算法拟合连续校准函数 \(g^*(\cdot)\)
无标签、推理时校准：CalibraEval 完全不需要显式标签，仅利用不同排列组合下的预测分布关系来学习校准函数。校准函数可以在观察所有测试样本后计算，也可以用子集估计。

损失函数 / 训练策略¶

优化目标见上述公式，\(\lambda\) 为正则化超参数
梯度下降更新：\(d_k^{(new)} = d_k^{(old)} - \gamma \frac{\partial L}{\partial d_k}\)
归一化约束：每次迭代后 \(\sum_{i=0}^{M} d_i = 0\)
连续函数拟合：PAVA（Pool Adjacent Violators Algorithm）

实验关键数据¶

主实验（平均一致性指标）¶

方法	Kappa↑	ICC(2,k)↑	ICC(3,k)↑
Llama-3-8B (无去偏)	31.14	71.14	77.16
+ DI	25.15	66.95	72.25
+ CC	25.31	60.62	67.47
+ DC	33.21	74.58	76.88
+ Pride	37.35	76.83	78.20
+ CalibraEval	39.16	83.38	84.30

Qwen-72B 上的效果：

方法	Kappa↑	ICC(2,k)↑	ICC(3,k)↑
Qwen-72B (无去偏)	77.47	92.63	93.06
+ Pride	77.86	92.81	93.19
+ CalibraEval	79.98	96.24	96.68

消融实验¶

配置	关键指标	说明
仅用第一项（标识符一致性）	Kappa提升但有限	单一约束不够
仅用第一+第二项（无正则化）	存在平凡解风险	正则化项必要
完整三项	最优	各项互补
改变估计集大小	K≥100即稳定	对样本量不敏感

关键发现¶

CalibraEval 全面超越所有基线：在 Llama-3-8B、Llama-3.1-8B、Qwen-14B、Qwen-72B、ChatGPT 等多种模型上，CalibraEval 在一致性和准确率指标上持续领先
Pride 的局限性：Pride 假设线性乘法关系，在某些模型上甚至导致性能下降
DI（Discard Inconsistent）和 CC（Content-level Calibration）的不稳定性：这些简单方法在不同模型和数据集上表现不一致
跨模型泛化：CalibraEval 的校准函数在不同 prompt 模板、选项标识符、few-shot 设置下均保持有效
大模型也受益：即使 Qwen-72B 这样的大模型，CalibraEval 仍能在 ICC 上提升 3-4 个百分点
计算开销极小：仅需推理时计算一个轻量校准函数，无需额外训练

亮点与洞察¶

问题形式化的优雅性：将去偏问题转化为优化问题，利用"无偏评估应在四种排列下一致"的直觉设计优化目标，逻辑自然而严密
非参数方法的灵活性：NOA 不假设偏差的具体形式，通过保序约束缩小解空间，比 Pride 的线性乘法假设更通用
无标签设计的实用性：在实际场景中，获取标签的成本正是使用 LLM 评判器的动机，因此无标签方法具有更高的实用价值
softmax 保序映射的设计：累积 softmax 表达式天然满足保序约束，且可微分便于梯度优化，设计精巧

局限与展望¶

需要对每个样本做四种排列组合的推理（增加了推理成本约3倍），虽然比多轮讨论方法高效，但仍有额外开销
保序假设可能在极端偏差情况下不完全成立
仅关注成对比较场景，未扩展到 pointwise 评估或多选项比较
校准函数是对特定模型学习的，模型更换时需要重新校准
未探索与模型微调方法（如 BCT）的结合使用
\(\lambda\) 超参数的选择依赖经验，缺少自动选择机制

评分¶

新颖性: ⭐⭐⭐⭐ 将去偏问题形式化为优化任务的思路新颖，NOA算法的保序设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 多模型、多基准、多指标，鲁棒性验证全面（prompt变化、token变化、few-shot）
写作质量: ⭐⭐⭐⭐ 公式推导清晰，问题动机明确，但部分数学符号较密集
价值: ⭐⭐⭐⭐⭐ 解决了LLM评估中的关键痛点，方法即插即用，实用价值极高