Investigating Non-Transitivity in LLM-as-a-Judge¶

会议: ICML 2025
arXiv: 2502.14074
代码: yix8/llm-nontransitivity
领域: LLM/NLP
关键词: LLM评估, 非传递性, Bradley-Terry模型, 锦标赛排名, 位置偏差

一句话总结¶

揭示了 LLM-as-a-Judge 框架中评判偏好的非传递性问题（A>B, B>C 不能推出 A>C），证明固定基线模型的排名方式不可靠，提出基于循环赛 + Bradley-Terry 模型的排名方法及高效的 Swim 锦标赛策略。

研究背景与动机¶

LLM-as-a-Judge 范式的普及：以 AlpacaEval、VicunaEval、Arena-Hard 为代表的自动评估框架，采用 LLM 对目标模型与固定基线模型进行成对比较，通过胜率来排名模型。
隐含的传递性假设：这些框架暗含一个关键假设——如果 Judge 偏好 A 胜过 B，B 胜过 C，则必然偏好 A 胜过 C。然而，该假设从未被系统性验证。
若传递性不成立：当存在"石头-剪刀-布"式的循环偏好时，排名会高度依赖基线模型的选择，导致不同基线产生矛盾的排名结果。
核心问题：LLM Judge 的偏好到底有多大程度的非传递性？这种非传递性如何影响排名的可靠性？如何设计更鲁棒的排名方法？

方法详解¶

整体框架¶

本文的方法可分为三大部分：（1）度量非传递性的指标设计；（2）基于锦标赛的排名方法；（3）高效的 Swim 匹配策略。

评估设置：在 AlpacaEval 数据集上，对 20 个同时出现在 AlpacaEval 和 Chatbot Arena 排行榜的模型进行评估。使用 GPT-4-Turbo 和 GPT-3.5-Turbo 作为 Judge 模型，温度设为 0。采用位置交换（position switching）策略缓解位置偏差，每种位置配置调用两次以减少 API 随机性。

关键设计¶

1. 非传递性度量指标¶

硬非传递性比例 (PNT)：给定模型三元组 \((m_A, m_B, m_C)\)，在指令集 \(\mathcal{I}\) 上计算违反传递性的指令比例：

\[\text{PNT} = \frac{1}{|\mathcal{I}|} \sum_{I_i \in \mathcal{I}} \mathbb{1}_{\text{non-trans.}}(m_A, m_B, m_C \mid m_J, I_i)\]

局限性：PNT 是二值指标，无法区分"严重违反"和"轻微违反"。例如 \(J(A>C)=0\) 和 \(J(A>C)=0.49\) 都被同等视为非传递，但后者明显更接近传递。

软非传递性偏差 (SNTD)：利用 Jensen-Shannon 散度衡量观测胜率 \(\phi\) 与传递性假设下的估计胜率 \(\hat{\phi}\) 的差异：

\[\text{SNTD}(m_A, m_B, m_C | I_i) = \frac{1}{3} \times \mathbb{E}\left[\sum_{\text{三个配对}} \text{JSD}(\phi \| \hat{\phi})\right]\]

估计胜率的推导：基于 Bradley-Terry 模型，利用两对比较的观测胜率推算第三对在传递性假设下的期望胜率：

\[\hat{\phi}(o_A, o_B \mid m_J, I_i) = \frac{1}{1 + e^{-(s_{AC} - s_{BC})}}\]

其中 \(s_{AB} = \ln\frac{\phi_{AB}}{1-\phi_{AB}}\) 是从观测胜率反推的质量差。

2. 四种场景分类¶

根据模型间性能差距，将三元组分为四类：

场景	关系	含义
LL (Lead & Lead)	\(m_A \gg m_B \gg m_C\)	三者差距均大
LM (Lead & Margin)	\(m_A \gg m_B \approx m_C\)	前者领先，后两者接近
ML (Margin & Lead)	\(m_A \approx m_B \gg m_C\)	前两者接近，后者落后
MM (Margin & Margin)	\(m_A \approx m_B \approx m_C\)	三者水平相近

3. 锦标赛排名方法¶

循环赛 (Round-Robin)：让所有模型两两进行成对比较，构建完整的胜率矩阵，然后使用 Bradley-Terry 模型拟合每个模型的强度系数 \(\beta_i\)：

\[\hat{\boldsymbol{\beta}} = \arg\max_{\boldsymbol{\beta}} \sum_i \sum_{j \neq i} \left[ W_{i,j} \cdot \ln\frac{1}{1+e^{(\beta_j - \beta_i)}} \right]\]

关键创新：使用软标签（连续胜率）而非硬标签（0/1），\(W_{i,j} = \sum_{I_k} J(m_i \succ m_j \mid I_k)\)，产生更精确的估计。最终将 BT 系数转换为 Elo 评分：\(\xi_i = 400 \log_{10} \beta_i\)。

Swim 锦标赛 (Swiss-Wise Iterative Matchmaking)：循环赛的计算复杂度为 \(\mathcal{O}(nm^2)\)，Swim 借鉴二分搜索和瑞士制锦标赛思想，动态调整匹配对手，将新模型加入排行榜的比较次数从 \(M\) 降至 \(\lceil \log_2(M) \rceil\)，总复杂度降为 \(\mathcal{O}(nm\log m)\)。

损失函数 / 训练策略¶

本文不涉及模型训练，核心优化目标是 Bradley-Terry 模型的最大似然估计。此外采用了以下策略：

位置交换 (Position Switching)：每次比较交换两个输出的位置，取均值作为最终偏好得分，缓解位置偏差
长度控制 (Length-Controlled)：采用与 LC-AlpacaEval 相同的广义线性模型权重，消除冗长回答的偏差
多种 Prompt 策略探索：测试了评估清单 (Checklist)、思维链 (CoT)、允许平局等策略对非传递性的影响

实验关键数据¶

主实验¶

方法	Spearman (无LC)	Spearman (LC)	Kendall (无LC)	Kendall (LC)
AlpacaEval 2.0	81.4%	95.0%	63.2%	82.1%
Round-Robin (本文)	85.4%	96.4%	68.4%	86.3%
提升	+4.0%	+1.4%	+5.2%	+4.2%

与 Chatbot Arena 人类排名的相关性全面提升，证明循环赛排名更好地对齐人类偏好。

消融实验¶

配置	关键指标	说明
GPT-4-Turbo Judge (MM场景)	PNT=8.45%, SNTD=0.143	模型水平相近时非传递性最高
GPT-3.5-Turbo Judge (MM场景)	PNT=20.87%, SNTD=0.263	弱Judge非传递性显著更高
GPT-4-Turbo + 位置交换	非传递性降低 17%-44%	对强Judge有效
GPT-3.5-Turbo + 位置交换	非传递性反而略增	对弱Judge可能反效果
CoT Prompting	位置偏差↓, 非传递性↑	CoT缓解位置偏差但引入新的非传递性
允许平局	位置偏差↑, 非传递性↑	两者都变差
Checklist Prompting	非传递性略微↓	效果有限
Swim vs Round-Robin	几乎相同的相关性	仅需 log₂(M) 次比较

关键发现¶

非传递性普遍存在：在所有四种场景中，GPT-4-Turbo 和 GPT-3.5-Turbo 作为 Judge 时都表现出非传递性偏好。
模型越接近，非传递性越强：PNT 和 SNTD 在模型性能差距缩小时显著提升，在 MM 场景达到峰值。
弱 Judge 更不可靠：GPT-3.5-Turbo 的非传递性指标全面高于 GPT-4-Turbo，且跨场景几乎不变（~20% PNT），说明其评估主要由偏差驱动。
基线选择高度敏感：20 个模型中仅 20% 在所有基线下保持相同排名，任意两个排名列表平均仅 61% 的模型位置一致。
非传递性由双因素共同驱动：位置偏差是重要因素，但即使在无位置偏差的"一致性指令"中仍存在非传递性，说明 Judge 内在的推理能力也是原因。
模型级硬非传递性温和：经过位置交换后，模型级别的硬非传递性很少发生，但软非传递性仍然导致排名不一致。

亮点与洞察¶

问题意义重大：首次系统性研究 LLM-as-a-Judge 中的非传递性问题，揭示了当前自动评估框架的根本缺陷。
SNTD 指标设计精巧：利用 Bradley-Terry 模型构建传递性假设下的期望胜率，再用 JSD 衡量偏差，既有理论基础又具可操作性。
从博弈论视角解决评估问题：将 LLM 评估类比为非传递博弈（如星际争霸、Dota 2），借鉴多智能体强化学习中的种群评估思想。
Swim 算法实用性强：将新模型加入排行榜的成本从线性降至对数级，使得锦标赛方法在大规模排行榜上可行。
位置交换+软标签的组合：软标签（连续胜率）比硬标签（0/1）在 BT 模型估计中更准确，位置交换对强 Judge 有效但对弱 Judge 可能适得其反。

局限与展望¶

数据集覆盖有限：仅在 AlpacaEval 数据集上验证，可能不完全代表真实的开放式任务分布。
Judge 模型范围窄：只测试了 GPT-4-Turbo 和 GPT-3.5-Turbo，未扩展到 Claude、Gemini 等其他 Judge。
参考标准本身有偏差：依赖 Chatbot Arena 人类排名作为金标准，但人类评估本身也可能存在非传递性。
仅关注成对比较：未探索逐点评分方法中的非传递性，以及逐点转成对时是否引入新的循环偏好。
Bradley-Terry 模型的局限：BT 模型假设每个模型有一个全局标量强度，无法捕捉多维能力差异，更具表达力的多维模型值得探索。

评分¶

维度	分数	理由
新颖性	⭐⭐⭐⭐	首次系统研究 LLM Judge 非传递性，问题视角新颖
理论深度	⭐⭐⭐⭐	SNTD 指标有 BT 模型理论支撑，分析透彻
实验充分性	⭐⭐⭐⭐	20模型全配对实验，多场景多Judge，消融丰富
实用价值	⭐⭐⭐⭐⭐	Swim 算法可直接提升现有排行榜可靠性
写作质量	⭐⭐⭐⭐	逻辑清晰，图表丰富，动机阐述充分
综合	⭐⭐⭐⭐	对 LLM 评估社区有重要指导意义的扎实工作

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评