Validating LLM-as-a-Judge Systems under Rating Indeterminacy¶

会议: NeurIPS 2025
arXiv: 2503.05965
代码: 无
领域: LLM评估 / 推荐系统
关键词: LLM-as-a-Judge, 评分不确定性, 验证框架, 多标签评估, 强制选择偏差

一句话总结¶

提出在评分不确定性 (rating indeterminacy) 条件下验证 LLM-as-a-Judge 系统的框架，通过 "response set" 多标签评分方案替代强制选择评分，使选出的 judge 系统性能提升高达 31%。

LLM-as-a-judge 范式已成为评估生成式 AI 输出的主流方法，但验证此类系统存在根本性问题：

评分不确定性 (Rating Indeterminacy): 对于很多评估条目，评分标准允许多种合理解释，人类评分者和 LLM 可能对同一条目给出不同但都"正确"的评分

强制选择偏差: 现有方法要求评分者只选一个评分（forced-choice），掩盖了评分的内在不确定性

验证失真: 人类和 LLM 在处理不确定性时的方式不同，导致基于强制选择评分的验证严重偏倚

评分不确定性的形式化:
- 定义"合理评分集" (plausible rating set): 对于条目 \(x\)，可能有多个合理评分 \(R(x) \subseteq \{1,...,K\}\)
- 当 \(|R(x)| > 1\) 时，存在评分不确定性
- 强制选择要求 \(|R(x)| = 1\)，与现实不符
Response Set 评分方案:
- 评分者标注所有合理评分，而非仅选一个
- 例如：某条回答可能"3分和4分都合理"，则标注 \(\{3, 4\}\)
- 保留了评分的不确定性信息
验证指标修正:
- 传统指标（如 agreement rate）在不确定性下有偏
- 提出修正的 human-judge agreement 指标
- 理论证明：response set 方案下的验证是无偏的
Judge 系统选择:
- 传统方法选 agreement 最高的 judge → 选出次优系统
- 本文方法在 response set 下重新评估 → 选出真正最优系统

不涉及模型训练。核心是验证和评估方法论的改进。

验证方案	选出的 Judge 在真实排名 (中位数)	与最优 Judge 的性能差距 (%)	选中最优 Judge 的比例
强制选择 + 多数投票	5th / 9	-31%	11%
强制选择 + 加权聚合	4th / 9	-25%	18%
Response set (本文)	1st / 9	0%	72%

LLM Judge	强制选择 Agreement ↑	Response Set Agreement ↑	排名变化
GPT-4o	0.72	0.81	3→1
Claude-3.5	0.75	0.78	1→2
GPT-4	0.71	0.77	4→3
Gemini-1.5	0.73	0.74	2→4
GPT-3.5	0.65	0.68	5→5
Llama-3-70B	0.62	0.66	6→6
Mixtral-8x7B	0.58	0.63	7→7
Llama-3-8B	0.52	0.55	8→8
Phi-3	0.48	0.51	9→9

任务类别	高不确定性条目比例 (%)	强制选择偏差 (%)	本文方法纠正率 (%)
安全性评估	42.5	28.3	85.2
创意写作	55.8	35.1	82.5
事实准确性	18.2	12.5	91.8
对话质量	48.3	31.2	83.8
代码质量	25.5	15.8	89.5