Correlated Errors in Large Language Models¶

会议: ICML 2025
arXiv: 2506.07962
代码: https://github.com/nikhgarg/llm_correlated_errors_public/ (有)
领域: LLM/NLP
关键词: LLM相关性, 算法同质化, 错误一致性, LLM-as-Judge, 劳动力市场

一句话总结¶

本文通过对超过350个LLM的大规模实证分析，发现不同LLM之间存在高度相关的错误模式——在两个模型都出错时约60%的情况下会选择同一个错误答案，且越准确的模型相关性越高；进而研究了这种相关性对LLM-as-Judge评估和招聘市场的下游影响。

研究背景与动机¶

领域现状：LLM越来越多地被部署在多智能体/多模型的高风险场景中（如评估、招聘），而一个隐含假设是"使用不同的模型能带来多样性和鲁棒性"。

现有痛点：缺乏大规模实证数据来验证不同LLM是否真正在行为上存在有意义的差异。多个企业使用看似不同的模型是否真能避免系统性排斥（systemic exclusion）？

核心矛盾：直觉上，不同架构/不同厂商的模型应当有不同的错误分布；但如果训练数据和优化目标趋同，模型可能在错误模式上趋于一致。

本文目标：量化LLM之间的错误相关性，找到影响相关性的因素，评估相关性在实际应用场景中的影响。

切入角度：利用两个大型排行榜（HuggingFace Open LLM Leaderboard、Stanford HELM）的多选题回答数据，以及自建的简历筛选数据集，系统性地分析模型对错误答案的一致性。

核心 idea：LLM的错误并非随机且独立的——越准确的模型在错误上越趋同，这对依赖模型多样性的应用场景构成风险。

方法详解¶

整体框架¶

本文的研究框架分为三大部分：(1) 量化LLM错误相关性的程度；(2) 回归分析解释相关性的来源；(3) 在两个下游任务中分析相关性的实际影响。使用了三个数据集：HuggingFace（349个LLM，12,032道选择题）、HELM（71个LLM，14,042道选择题）、简历筛选（20个LLM，1,800个简历-职位对）。

关键设计¶

错误一致率（Agreement Rate When Both Wrong）:
- 功能：度量两个模型在都答错的情况下选择同一个错误答案的概率
- 核心思路：通过条件化"两个模型都错"来消除准确率的混淆因素——两个准确的模型自然会在正确答案上高度一致，但这不代表真正的同质化
- 设计动机：随机猜测的基线agreement rate在HELM上为1/3（3个错误选项），在HuggingFace上为0.127（3-10个选项）
- 和之前方法的区别：与Goel et al. (2025)相比，本文不依赖模型输出概率分布，更适用于只有最终答案的黑盒场景
回归分析（Regression Analysis of Error Agreement）:
- 功能：用线性回归分析哪些因素驱动了模型间的错误相关性
- 核心思路：将每对模型的agreement rate作为因变量，以是否同一厂商、是否同一架构、各自准确率及其交互项作为自变量
- 设计动机：区分"表面相似"（同公司/同架构）和"深层趋同"（高准确率模型的内在相似性）
- 关键发现：即使控制了厂商和架构因素，更准确的模型pair依然有更高的错误相关性
简历筛选数据集（Resume-Job Evaluation）:
- 功能：构建了30个职位描述 × 60份简历的1,800个配对，用20个LLM评分，并有450对人工标注作为ground truth
- 核心思路：通过残差相关性（residual correlation）来度量——残差 = 模型评分 - 人工评分
- 设计动机：从选择题扩展到更接近实际部署场景的开放式评估

损失函数 / 训练策略¶

本文为实证分析工作，不涉及模型训练。回归分析使用标准OLS回归，所有数值变量标准化处理。

实验关键数据¶

主实验¶

数据集	指标	平均Agreement Rate	随机基线	倍率
HuggingFace	Agreement when both wrong	0.423	0.127	3.3×
HELM	Agreement when both wrong	0.600	0.333	1.8×
Resumes	Residual correlation	高度相关	0	-

回归因素	HuggingFace系数	HELM系数	Resumes系数
Same Company	0.066**	0.022**	0.021
Same Architecture	0.076**	-	-
Acc.1	0.014**	0.055**	0.015**
Acc.2	0.013**	0.054**	0.028**
Acc.1 × Acc.2	0.023**	0.026**	0.043**
R²	0.340	0.613	0.415

消融实验¶

配置	关键指标	说明
移除Same Company变量	R²略降	厂商是重要但非唯一因素
仅保留准确率变量	R²仍显著	准确率本身是错误趋同的独立驱动力
极端例子	0.9987 agreement	google/text-unicorn vs writer/palmyra-x-v3几乎完全一致

关键发现¶

几乎所有模型对的agreement rate都高于随机基线（HuggingFace 100%，HELM 97.5%）
更准确的模型有更高的错误相关性，即使架构和厂商不同——说明模型在"变好"的同时也在"变同"
LLM-as-Judge中，judge模型系统性地高估比自己弱的模型的准确率（共享错误答案），同厂商bias更严重
在劳动力市场模拟中，即使用20个不同LLM筛简历仍有约20%的systemic exclusion
算法单一化对申请者福利的影响是双面的：增加了systemic exclusion，但被录用者有更多选择权

亮点与洞察¶

揭示了反直觉的现象：使用更好/更新的模型反而可能使生态系统更同质化
实验规模空前：350+模型、26,000+题目的系统性分析
将"算法单一化"概念用真实LLM和真实简历数据进行了实证验证
对LLM-as-Judge范式提出了重要警告：judge偏向于与自己相似的模型

局限与展望¶

仅评估了多选题和数值评分场景，缺乏对开放式生成任务的分析
错误相关性度量对所有错误答案一视同仁，没有考虑"接近正确"的错误
简历评估中的ground truth来自有限的人工标注（450对），主观性较强
没有探讨如何主动降低模型相关性
劳动力市场模拟较为简化，未考虑真实市场中的动态反馈

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐