Bridging Human and LLM Judgments: Understanding and Narrowing the Gap¶

会议: NEURIPS2025
arXiv: 2508.12792
代码: https://github.com/felipemaiapolo/bridge
领域: LLM/NLP
关键词: LLM-as-Judge, 人类-LLM对齐, 统计框架, 校准, 偏差检验

一句话总结¶

提出Bridge统计框架，通过序数logistic回归建模人类和LLM评判之间的潜在关系，以少量人类标签改善LLM评判的校准和对齐，同时支持对系统性偏差的正式统计检验。

领域现状：LLM-as-a-Judge 已成为评估 AI 输出的主流方法，但研究反复表明 LLM 评判与人类存在系统性偏离——偏好长回复、过度奖励结构化格式、对创意内容评分不足。
现有痛点：(a) 现有研究只定性描述偏差（如"LLM偏好长回复"），缺乏统一的定量框架；(b) 无法对偏差做正式统计检验（哪些偏差显著？偏差有多大？）；(c) 校正方法要么需要大量人类标签（Platt Scaling），要么需要微调LLM（代价高）。
核心矛盾：需要用少量人类标签就能校正多种系统性偏差，同时提供理论保证。
本文要解决什么：构建一个统一的统计框架，能同时（1）诊断偏差来源及大小；（2）用少量人类标签校正LLM评判；（3）提供渐近正态性的理论保证。
切入角度：假设人类和LLM共享潜在偏好 \(Z^h\)，LLM评分 \(Z^l = \beta Z^h + \gamma^\top X\)，通过序数 logistic 回归 + logit trick 估计参数。
核心idea一句话：把 LLM-人类评判差异建模为潜在偏好的线性变换，用序数回归估计偏差系数并校正。

两步流程：(1) 从LLM输出提取评分概率（log-probs 或 CoT采样）→ 用 logit trick 估计 \(Z^l\)；(2) 拟合序数 logistic 回归 \(Z^l \to Y^h\)，得到偏差系数 \(\gamma\) → 校正LLM评分。支持绝对评分和两两比较两种范式。

序数 Logistic 回归模型:
做什么：建模人类评判 \(Y^h\) 和LLM评判 \(Y^l\) 对潜在偏好 \(Z^h\) 的依赖关系
核心思路：\(Z^l = \beta Z^h + \gamma^\top X\)，其中 \(X\) 编码偏差来源（回复长度、情感、结构化程度、代码块使用）
设计动机：序数回归天然处理有序分类（1-5分评分），偏差系数 \(\gamma\) 可直接量化每种偏差的大小和方向
Logit Trick（核心技术贡献）:
做什么：解决 \(Z^h\)（人类潜在偏好）不可观测的问题
核心思路：从LLM的输出概率（log-probs 或 50次 CoT 采样）估计 \(\Pr(Y^l = k)\)，反推 \(Z^l\)，然后拟合 \(Z^l \to Y^h\)
两种概率估计策略：(a) Log-probs：精确但需要非推理模型；(b) CoT采样：50次采样更鲁棒
设计动机：绕过了需要观测"人类真实偏好"的不可能要求
渐近正态性保证（Theorem 3.2）:
做什么：证明参数估计 \(\hat{\gamma}\) 满足渐近正态分布
实际意义：可构造置信区间和进行假设检验（如"LLM是否显著偏好长回复？\(p<0.001\)"）

序数 logistic 回归的最大似然估计，不需要训练LLM。仅拟合几十个参数。

指标	原始 LLM	Bridge 校正	提升
交叉熵 (BigGen)	~0.35	~0.25	-29%
准确率 (Arena)	~0.62	~0.67	+8%
校准误差	~0.15	~0.08	-47%

偏差来源	系数方向	大小范围	统计显著性
回复长度	负（LLM更偏好短回复）	-0.39 ~ -0.83	\(p < 0.001\)
正面情感	负（人类更奖励创意）	-0.12 ~ -0.31	\(p < 0.05\)
结构化计数	正（LLM偏好显式结构）	+0.16 ~ +0.35	\(p < 0.01\)
代码块使用	正（LLM对代码更友好）	+0.07 ~ +0.22	\(p < 0.05\)