JuStRank: Benchmarking LLM Judges for System Ranking¶

会议: ACL 2025
arXiv: 2412.09569
代码: JuStRank Data
领域: NLP理解
关键词: LLM-as-Judge, System Ranking, Benchmark, Bias Analysis, Decisiveness

一句话总结¶

首次大规模研究LLM判官在系统排名任务中的表现，提出JuStRank基准，揭示实例级判断能力与系统级排名能力之间的差距，并发现判官的"果断性"和"偏见"两个新兴特征。

领域现状: LLM-as-a-judge范式被广泛用于评估LLM系统，包括模型选择和配置比较。现有判官基准（如RewardBench）仅评估实例级能力。
现有痛点: 实例级表现好的判官不一定擅长系统排名；判官的错误分布可能在不同系统间不均匀，导致排名失真。
核心矛盾: 实例级评估忽略了系统级排名中的关键因素，如判官对特定系统的正/负偏见，以及错误分布的非均匀性。
本文要解决什么: 系统性评估LLM判官在系统排名任务中的表现，提供多维度的判官行为分析。
切入角度: 利用Arena Hard数据集的63个系统响应，结合Chatbot Arena人类排名作为ground truth，构建系统级评估框架。
核心idea一句话: 基于系统排名的判官基准比实例级基准更能反映判官在实际模型选择中的性能。

收集48个判官（含LLM和奖励模型）对63个系统的500条指令产生的1.5M条评分，通过不同聚合方法得到系统排名，与Chatbot Arena人类排名做相关性分析。

多样化判官实现: 4种LLM判官实现——Numeric（数值打分0-100）、Likert（5级文本评分）、TokenProbs（token概率）、Anchor（与GPT-4比较）。覆盖10个LLM和8个奖励模型。
聚合方法: Win-rate、Mean、Median和Bradley-Terry（BT）四种聚合方式，将实例级分数转换为系统级排名。
果断性分析（Decisiveness）: 用Beta分布拟合成对胜率预测图，量化判官将差距放大的倾向，α值越高越果断。
系统特异性偏见分析: 定义偏见 \(B_{s_a}^p = \mathbb{E}_{s_b}(WR^p(s_a,s_b) - WR^g(s_a,s_b))\)，并在校正果断性后分析每个系统的偏见。

使用Kendall's Tau相关系数衡量判官排名与Chatbot Arena人类排名的一致性。对判官行为的果断性和偏见进行细粒度刻画。

判官模型	实现	聚合	Kendall τ
Qwen2.5-72B-Instruct	Likert	Win-Rate	.83
URM-LLaMa-3.1-8B	Reward	Mean	.82
GPT-4o-2024-11-20	Anchor	Mean	.82
Llama-3-1-405b-instruct	Numeric	Mean	.81
Mistral-large-instruct	Likert	BT	.81
GPT-4o-mini	Numeric	Win-Rate	.81
ArmoRM-Llama3-8B	Reward	Mean	.80

实现方式	最佳模型τ	最差模型τ	差距
Numeric	.81	.73	.08
Likert	.83	.71	.12
Anchor	.82	.67	.15
TokenProbs	.78	.62	.16