SkillAggregation: Reference-free LLM-Dependent Aggregation¶

会议: ACL 2025
arXiv: 2410.10215
代码: 无
领域: LLM/NLP
关键词: LLM评估, 多模型聚合, 无参考聚合, LLM-as-a-Judge, 众包标注

一句话总结¶

本文提出SkillAggregation方法，通过学习上下文相关的LLM评判者技能权重并利用后验估计进行推理，在无需参考标签的情况下有效聚合多个LLM评判者的预测，在多个任务上超越了现有聚合方法。

研究背景与动机¶

LLM作为评判者（LLM-as-a-judge）已成为NLP任务评估的重要替代方案，但单个LLM存在自偏好偏差、冗长偏差和提示敏感性等问题。使用多个LLM评判者可以改善性能，但关键在于如何有效地聚合多个评判者的判断。

现有聚合方法的局限：

等权方法（如多数投票、平均概率）忽略了评判者之间的能力差异，如GPT-4通常优于GPT-3，应被赋予更高权重

任务特定方法（如CrossCheckGPT）仅针对特定任务（如幻觉检测），无法泛化到其他评估场景

约束条件过强（如PRD）要求每个评判者评估所有其他评判者，限制了实用性

作者受众包标注聚合（crowdsourcing aggregation）的启发，将LLM评判者视为"工人"，提出了一种通用的、无需参考标签的上下文感知聚合方法。

方法详解¶

整体框架¶

SkillAggregation基于Crowdlayer方法的改进，包含三个核心组件： 1. 上下文编码器（预训练语言模型如GPT-2）将文本输入编码为向量表示 2. 瓶颈层将编码表示投影为2维的类分布估计 3. 可学习的技能估计向量捕捉每个LLM评判者的能力

关键设计¶

技能估计向量（Skill-Estimate Vectors）:
- 每个LLM评判者k对应一对标量 p̂₀^(n,k) 和 p̂₁^(n,k)
- p̂₀^(n,k) ≈ P(b_{n,k}=0|c_n=0, X_n)：给定真实标签为0和上下文时，评判者正确判断为0的概率
- p̂₁^(n,k) ≈ P(b_{n,k}=1|c_n=1, X_n)：给定真实标签为1和上下文时，评判者正确判断为1的概率
- 技能可以是任务特定的（所有样本共用一组参数）或上下文特定的（SkillAggregation-X，通过线性层+Sigmoid从上下文映射）
正则化项:
- 分析发现预测可改写为 (p̂₀ + p̂₁ - 1)·s_{n,0} + (1 - p̂₁)，即LLM判断与真实标签之间的线性关系
- 过度自信的LLM会导致斜率(p̂₀ + p̂₁ - 1)过大，放大其影响
- 提出正则化 L_reg = Σ(p̂₀ + p̂₁ - 1)² 来惩罚过大的斜率
- 总损失 L = L_CE + λ·L_reg
后验估计推理（Posterior Estimation）:
- 相比Crowdlayer仅使用瓶颈层输出进行推理，SkillAggregation在推理时同时利用LLM判断结果
- 假设LLM在给定真实标签和上下文时条件独立（CI假设）
- 通过贝叶斯规则计算后验 P(c_n|X_n, b_n)，用学习到的技能估计向量和瓶颈输出近似真实技能和先验
- 最终决策：比较后验比 r_n，当 r_n > 1 时判断为正类

损失函数 / 训练策略¶

训练目标：最小化预测的LLM判断与实际LLM判断之间的交叉熵损失 + 正则化项
上下文编码器：GPT-2 base（117M参数），使用最后一个隐藏状态作为上下文表示
完全无监督（reference-free）：在整个测试集上直接学习，无需参考标签
模型选择：用250个带标签的开发集样本选择超参数
训练时间：在单张NVIDIA RTX 6000 Ada上仅需20-30分钟

实验关键数据¶

主实验¶

方法	HaluEval 7B(%)	TruthfulQA 7B(%)	Chatbot Arena 7B(%)
平均概率	76.28	68.06	63.24
多数投票	76.16	67.47	63.93
DawidSkene	76.78	67.84	64.71
Train on MV	78.78	67.32	63.77
Crowdlayer	79.27	67.74	64.06
SkillAgg w/o Reg	80.22	68.07	64.17
SkillAgg	80.83	68.74	64.22
SkillAgg-X	81.06	68.77	64.43

SkillAggregation-X在HaluEval上获得4.9%、TruthfulQA上1.3%、Chatbot Arena上0.5%的绝对准确率提升（相比多数投票）。

方法	HaluEval ~70B(%)	TruthfulQA ~70B(%)	Chatbot Arena ~70B(%)
多数投票	80.81	83.63	70.61
SkillAgg-X	84.79	84.57	70.72

使用70B级别LLM评判者时，整体性能大幅提升，但聚合方法带来的增益减小。

消融实验¶

配置	关键指标	说明
正则化效果	三个数据集均稳定提升	防止过度自信LLM主导后验估计
上下文编码器替换(RoBERTa/Gemma-2B)	性能相似	方法对编码器选择不敏感
评判者子集分析	弱评判者时接近DawidSkene，强评判者时优势明显	需要足够好的评判者来学习有效的先验
数据集大小	1000样本时性能不稳定，5000样本时稳定	需要足够样本才能学好技能估计
去偏后	增益缩小	部分增益来自隐式去偏效果

关键发现¶

差异化加权方法（DawidSkene, SkillAggregation）在所有任务上均优于等权方法（多数投票、平均概率）
学习到的技能估计与LLM实际准确率高度相关（HaluEval上PCC=93.6%）
HaluEval上改进最大，因为上下文编码器本身已有一定的任务理解能力
Chatbot Arena上改进最小，因为人类偏好评估本身噪声更大
正则化项在7B/8B模型上贡献显著，有效缓解了小模型的过度自信问题

亮点与洞察¶

无参考学习：仅从LLM判断本身学习聚合权重，无需人工标注数据，实际应用中极具价值
后验估计推理：相比Crowdlayer仅用先验预测，在推理时引入LLM判断进行后验更新的设计巧妙且有效
正则化项的理论动机：通过分析线性关系中斜率的含义，自然推导出正则化项的必要性
从众包到LLM评估的迁移：将成熟的众包标注理论（Dawid-Skene等）适配到LLM评估场景，方法论有启发性
轻量级训练：GPT-2 base + 20-30分钟训练即可完成，部署成本极低

局限与展望¶

仅关注二分类任务，未扩展到回归或多分类评估场景
条件独立假设可能不成立，多个LLM可能在相同样本上犯关联错误
未考虑校准（calibration）性能，仅关注准确率
开发集仍需250个标注样本，并非完全无监督
未探索更强大的上下文编码器是否能进一步提升性能

评分¶

新颖性: ⭐⭐⭐⭐ 将Crowdlayer改造为SkillAggregation并引入后验推理和正则化，创新点清晰
实验充分度: ⭐⭐⭐⭐ 三个任务、多种评判者配置、多维消融分析，较为全面
写作质量: ⭐⭐⭐⭐⭐ 数学推导严谨，分析深入，图表清晰
价值: ⭐⭐⭐⭐ 对LLM评估实践有直接指导意义，方法简单高效