跳转至

Correlated Errors in Large Language Models

会议: ICML 2025
arXiv: 2506.07962
代码: https://github.com/nikhgarg/llm_correlated_errors_public/ (有)
领域: LLM/NLP
关键词: LLM相关性, 算法同质化, 错误一致性, LLM-as-Judge, 劳动力市场

一句话总结

本文通过对超过350个LLM的大规模实证分析,发现不同LLM之间存在高度相关的错误模式——在两个模型都出错时约60%的情况下会选择同一个错误答案,且越准确的模型相关性越高;进而研究了这种相关性对LLM-as-Judge评估和招聘市场的下游影响。

研究背景与动机

领域现状:LLM越来越多地被部署在多智能体/多模型的高风险场景中(如评估、招聘),而一个隐含假设是"使用不同的模型能带来多样性和鲁棒性"。

现有痛点:缺乏大规模实证数据来验证不同LLM是否真正在行为上存在有意义的差异。多个企业使用看似不同的模型是否真能避免系统性排斥(systemic exclusion)?

核心矛盾:直觉上,不同架构/不同厂商的模型应当有不同的错误分布;但如果训练数据和优化目标趋同,模型可能在错误模式上趋于一致。

本文目标:量化LLM之间的错误相关性,找到影响相关性的因素,评估相关性在实际应用场景中的影响。

切入角度:利用两个大型排行榜(HuggingFace Open LLM Leaderboard、Stanford HELM)的多选题回答数据,以及自建的简历筛选数据集,系统性地分析模型对错误答案的一致性。

核心 idea:LLM的错误并非随机且独立的——越准确的模型在错误上越趋同,这对依赖模型多样性的应用场景构成风险。

方法详解

整体框架

本文的研究框架分为三大部分:(1) 量化LLM错误相关性的程度;(2) 回归分析解释相关性的来源;(3) 在两个下游任务中分析相关性的实际影响。使用了三个数据集:HuggingFace(349个LLM,12,032道选择题)、HELM(71个LLM,14,042道选择题)、简历筛选(20个LLM,1,800个简历-职位对)。

关键设计

  1. 错误一致率(Agreement Rate When Both Wrong):

    • 功能:度量两个模型在都答错的情况下选择同一个错误答案的概率
    • 核心思路:通过条件化"两个模型都错"来消除准确率的混淆因素——两个准确的模型自然会在正确答案上高度一致,但这不代表真正的同质化
    • 设计动机:随机猜测的基线agreement rate在HELM上为1/3(3个错误选项),在HuggingFace上为0.127(3-10个选项)
    • 和之前方法的区别:与Goel et al. (2025)相比,本文不依赖模型输出概率分布,更适用于只有最终答案的黑盒场景
  2. 回归分析(Regression Analysis of Error Agreement):

    • 功能:用线性回归分析哪些因素驱动了模型间的错误相关性
    • 核心思路:将每对模型的agreement rate作为因变量,以是否同一厂商、是否同一架构、各自准确率及其交互项作为自变量
    • 设计动机:区分"表面相似"(同公司/同架构)和"深层趋同"(高准确率模型的内在相似性)
    • 关键发现:即使控制了厂商和架构因素,更准确的模型pair依然有更高的错误相关性
  3. 简历筛选数据集(Resume-Job Evaluation):

    • 功能:构建了30个职位描述 × 60份简历的1,800个配对,用20个LLM评分,并有450对人工标注作为ground truth
    • 核心思路:通过残差相关性(residual correlation)来度量——残差 = 模型评分 - 人工评分
    • 设计动机:从选择题扩展到更接近实际部署场景的开放式评估

损失函数 / 训练策略

本文为实证分析工作,不涉及模型训练。回归分析使用标准OLS回归,所有数值变量标准化处理。

实验关键数据

主实验

数据集 指标 平均Agreement Rate 随机基线 倍率
HuggingFace Agreement when both wrong 0.423 0.127 3.3×
HELM Agreement when both wrong 0.600 0.333 1.8×
Resumes Residual correlation 高度相关 0 -
回归因素 HuggingFace系数 HELM系数 Resumes系数
Same Company 0.066** 0.022** 0.021
Same Architecture 0.076** - -
Acc.1 0.014** 0.055** 0.015**
Acc.2 0.013** 0.054** 0.028**
Acc.1 × Acc.2 0.023** 0.026** 0.043**
0.340 0.613 0.415

消融实验

配置 关键指标 说明
移除Same Company变量 R²略降 厂商是重要但非唯一因素
仅保留准确率变量 R²仍显著 准确率本身是错误趋同的独立驱动力
极端例子 0.9987 agreement google/text-unicorn vs writer/palmyra-x-v3几乎完全一致

关键发现

  • 几乎所有模型对的agreement rate都高于随机基线(HuggingFace 100%,HELM 97.5%)
  • 更准确的模型有更高的错误相关性,即使架构和厂商不同——说明模型在"变好"的同时也在"变同"
  • LLM-as-Judge中,judge模型系统性地高估比自己弱的模型的准确率(共享错误答案),同厂商bias更严重
  • 在劳动力市场模拟中,即使用20个不同LLM筛简历仍有约20%的systemic exclusion
  • 算法单一化对申请者福利的影响是双面的:增加了systemic exclusion,但被录用者有更多选择权

亮点与洞察

  • 揭示了反直觉的现象:使用更好/更新的模型反而可能使生态系统更同质化
  • 实验规模空前:350+模型、26,000+题目的系统性分析
  • 将"算法单一化"概念用真实LLM和真实简历数据进行了实证验证
  • 对LLM-as-Judge范式提出了重要警告:judge偏向于与自己相似的模型

局限与展望

  • 仅评估了多选题和数值评分场景,缺乏对开放式生成任务的分析
  • 错误相关性度量对所有错误答案一视同仁,没有考虑"接近正确"的错误
  • 简历评估中的ground truth来自有限的人工标注(450对),主观性较强
  • 没有探讨如何主动降低模型相关性
  • 劳动力市场模拟较为简化,未考虑真实市场中的动态反馈

相关工作与启发

  • Goel et al. (2025)同期独立提出了类似的模型相似性度量,但使用了概率分布信息
  • Wu et al. (2024)从生成多样性角度发现LLM内部存在monoculture问题
  • Peng & Garg (2024a)在理论层面分析了算法单一化对劳动力市场的影响,本文提供了实证验证
  • 启发:未来排行榜应不仅评估单个模型的准确率,还应持续监测模型间的相关性

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐

相关论文