Language Model Developers Should Report Train-Test Overlap¶

会议: ICML 2025
arXiv: 2410.08385
代码: 无
领域: LLM/NLP
关键词: 训练-测试重叠, 数据污染, 评估透明度, 基准可信度, 模型评估

一句话总结¶

本文系统性地调研了30个语言模型开发者在训练-测试重叠（train-test overlap）方面的报告实践，发现仅9个模型提供了足够的重叠信息，并呼吁所有开发者在发布评估结果时必须同时报告训练-测试重叠统计数据或公开训练数据。

研究背景与动机¶

问题定义¶

训练-测试重叠（train-test overlap）是指语言模型的训练数据中包含了其被评估的测试数据的程度。在传统机器学习范式中，训练集和测试集由评估设计者统一划分，重叠问题天然可控。但在大语言模型时代，模型开发者自行决定训练集（通常不公开），评估设计者决定测试集（通常公开），这种两方分别控制训练/测试数据的新范式使得重叠问题变得难以追踪。

重叠产生的三个主要途径¶

测试集被爬取：评估数据集通常公开在 GitHub、Hugging Face 等平台，容易被网络爬虫抓取并纳入训练数据

底层数据重叠：评估数据集常基于已公开的材料（如 SQuAD 使用 Wikipedia 数据），这些底层数据可能被训练使用

API 调用泄露：评估时输入模型的测试数据可能被存储并用于训练未来模型

已有证据表明重叠危害严重¶

GPT-4 Codeforces 事件：OpenAI 声称 GPT-4 在 Codeforces 上达到 SOTA 且无污染，但后续发现模型在2021年之前的题目上准确率100%，而在新题目上准确率为0%
Claude 3.5 CTF 事件：Anthropic 声称在 Capture The Flag 任务上取得突破，但 Transluce 发现 Claude 3.5 实际上是通过记忆答案来解决已损坏的任务
研究表明，高训练-测试重叠会导致模型在已见和未见测试样本之间产生显著性能退化

方法详解¶

整体框架¶

本文采用系统性调研+评分+政策建议的研究框架：

模型选择：从 HELM MMLU 排行榜和 Ecosystem Graphs 中选取30个开发者的旗舰语言模型
信息收集：对每个模型，检索其论文、技术报告和官方网站中关于训练-测试重叠的信息
二分评分：为每个开发者打分（0或1），判断其是否提供了足够信息来评估重叠程度
开发者沟通：对评分为0的开发者主动联系，给予其补充信息或反驳的机会
替代方案分析：系统评估现有的四种应对策略的优劣

关键设计：评分标准体系¶

评分标准围绕以下三个核心维度展开：

维度	评估内容	达标条件
训练数据公开性	训练数据是否公开可用	以开源许可证发布训练数据，第三方可直接计算重叠
重叠报告完整性	是否针对报告了结果的公开基准报告了重叠统计	对每个测试集提供量化的重叠度量
方法透明度	是否清晰描述了计算重叠的方法	明确说明使用的重叠检测方法论

评分规则： - 若训练数据公开 → 直接得1分（第三方可自行检测） - 若训练数据不公开，但重叠报告具有足够特异性且方法描述清晰 → 得1分 - 以上条件均不满足 → 得0分

四种替代策略的系统性分析¶

论文详细评估了社区已有的四种应对训练-测试重叠的策略：

1. 黑盒检测方法（Black-box Methods）

通过模型 API 和测试集估计重叠程度，包括： - 提示法（Golchin & Surdeanu, 2023）：用数据集名称和初始片段提示模型，检查是否输出完整样本 - 词概率法（Shi et al., 2023）：通过异常词的概率输出估计重叠，假设未见样本中极低概率词较少 - 排序法（Oren et al., 2023）：利用模型可能记忆测试实例顺序这一特性进行检测

局限：不鲁棒于对抗性设置（如开发者微调模型以避免泄露训练数据），需要特定假设，且在白盒设置下检测已有显著局限，黑盒约束下挑战更大。

2. 私有测试集（Private Test Sets）

如 SQuAD 和 SEAL，将测试集隐藏不公开。 - 优势：降低测试数据被训练的可能性 - 局限：数据透明度问题，社区需依赖单一组织对测试集有效性的评估

3. 新颖测试集（Novel Test Sets）

使用在模型知识截止日期之后产生的数据，如 Livebench。 - 优势：从时间维度规避重叠 - 局限：新模型不断发布、持续添加新数据的经济成本高、难以解读纵向进展

4. 金丝雀字符串（Canary Strings）

在测试集中标记唯一字符串，允许开发者在训练时过滤包含该字符串的数据。 - 优势：提供了一种信号机制 - 局限：实现不统一、可被轻易过滤、可能出现假阳性

损失函数 / 训练策略¶

本文作为 position paper，不涉及模型训练。其核心"策略"是提出一套报告规范：语言模型开发者在发布公开测试集上的评估结果时，应同时发布训练-测试重叠统计数据和/或训练数据。该规范与统计学领域要求发表结果附带置信区间的惯例类似——由研究者自行选择方法，但必须提供相关信息。

实验关键数据¶

主实验：30个模型的训练-测试重叠报告现状¶

模型	开发者	评分	说明
OLMo	AI2	1	开源训练数据
Pythia	EleutherAI	1	开源训练数据
RedPajama-INCITE 7B	Together AI	1	开源训练数据
StarCoder 2	BigCode	1	开源训练数据
GPT-4	OpenAI	1	发布重叠方法和统计数据
Llama 3.1	Meta	1	发布重叠方法和统计数据
Qwen2	Alibaba	1	发布重叠方法和统计数据
Palmyra	Writer	1	发布重叠方法和统计数据
Apple Intelligence	Apple	1	发布重叠方法和统计数据
其余21个模型	各开发者	0	未充分报告训练-测试重叠

消融实验：得1分模型的两种报告路径¶

报告路径	模型数量	代表模型	特点
开源训练数据	4	OLMo, Pythia, StarCoder 2, RedPajama	社区可直接计算任意测试集的重叠
发布重叠统计	5	GPT-4, Llama 3.1, Qwen2, Palmyra, Apple Intelligence	开发者自行报告方法和结果
开发者沟通后补充	3	（论文通过与开发者沟通获得的新信息）	主动接触带来透明度提升

关键发现¶

透明度严重不足：30个模型中仅9个（30%）提供了足够的训练-测试重叠信息，21个模型在公开基准上报告了评估结果却未报告重叠
不透明导致信任危机：GPT-4 Codeforces 事件和 Claude 3.5 CTF 事件表明，缺乏重叠报告直接导致不实声明和社区信任侵蚀
黑盒方法不可替代白盒报告：现有黑盒检测方法存在显著局限性，无法完全替代开发者主动的透明报告
主动沟通可推动进展：研究者通过与开发者接触，为3个额外模型获取了新的重叠信息，证明了外部推动的价值
现有替代策略各有缺陷：私有测试集、新颖测试集、金丝雀字符串等策略虽然有用，但均无法完全解决问题，需要与开发者报告相结合

亮点与洞察¶

范式转变的精准刻画：论文清晰指出从"单方控制训练/测试"到"两方分别控制"的范式转变是问题根源，这一分析框架具有启发性
务实的评分标准：不评判具体方法论的优劣，而是设定最低阈值——只要提供某种有意义的信息即可，降低了开发者的合规门槛
类比统计学置信区间：将重叠报告类比为统计学中的置信区间要求，使论点更具说服力——这不是额外负担，而是科学报告的基本规范
行动导向：不仅诊断问题，还主动联系21个评分为0的开发者，体现了研究的现实影响力

局限与展望¶

二分评分粒度不足：0/1评分无法区分"完全不报告"和"报告了但不够充分"的情况，更细粒度的评分体系可能更有指导意义
未评估报告质量：明确不评判各开发者使用的具体重叠检测方法的质量，这可能导致低质量报告也获得满分
时间局限性：只考虑2024年9月1日之前的模型和报告，快速演进的模型生态可能已有变化
缺乏量化分析：未能量化训练-测试重叠对各基准实际性能的影响幅度，无法为"重叠严重到什么程度才需警惕"提供定量指引
仅覆盖语言模型：未涵盖多模态模型、代码生成模型等其他类型基础模型的重叠问题
缺少机制设计：仅呼吁自律，未探讨如何通过激励机制（如排行榜惩罚）或监管手段推动合规

评分¶

维度	评分 (1-5)	说明
新颖性	3	问题已被广泛讨论，但系统性调研和评分框架是新工作
技术深度	2	作为 position paper，技术贡献有限，主要是政策和规范层面
实验充分性	3	覆盖30个模型的调研较全面，但缺乏定量实验
写作质量	4	逻辑清晰，论证充分，案例生动
影响力	4	触及AI评估的核心信任问题，对行业实践有直接指导意义
综合	3.5	重要且及时的呼吁，但技术深度有限