MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark¶

会议: ACL 2025
arXiv: 2412.15194
代码: 无（测试集闭源，验证集公开）
领域: 其他（基准评测）
关键词: 数据污染, 基准评测, MMLU, 多任务语言理解, 去污染

一句话总结¶

提出 MMLU-CF，一个包含 20,000 道题的无数据污染多任务语言理解基准，通过从更广泛的来源收集数据并应用三条去污染规则（改写题目、打乱选项、随机替换选项）来避免无意和恶意的数据泄露，最强模型 GPT-4o 在该基准上仅获得 73.4%（MMLU 上为 88.0%）。

研究背景与动机¶

MMLU 是评估 LLM 通用知识理解能力的标准基准，但面临严重的数据污染问题：

问题1：无意泄露 - LLM 训练数据来源广泛，不可避免地包含 MMLU 等公开基准的数据 - 模型可能通过记忆而非推理来回答问题

问题2：恶意泄露 - 由于基准完全公开，存在被故意加入训练数据的风险 - 实验证据：当仅给出 MMLU 的题目时，某些 LLM 能直接给出与原始完全相同的选项，说明模型已经记住了这些题目

MMLU 难度不足： - GPT-4o、Gemini-1.5-Pro、Claude 等前沿模型在 MMLU 上已达到 86%-88% - 近三分之一题目的难度低于 4（满分 9），大量简单题目是高分的原因 - 评估已到达瓶颈，无法有效区分新一代模型的能力

方法详解¶

整体框架¶

MMLU-CF 的构建经过五步流程： 1. MCQ 收集（MCQ Collection） 2. MCQ 清理（MCQ Cleaning） 3. 难度采样（Difficulty Sampling） 4. LLM 审核（LLMs Checking） 5. 去污染处理（Contamination-Free Processing）

最终产出：10,000 道闭源测试题 + 10,000 道开源验证题

关键设计¶

数据来源多样化： - 从超过 2000 亿公开网页文档中提取原始选择题 - 覆盖 3000+ 个不同网站域名 - 远比 MMLU 仅依赖少数来源更加多样 - 涵盖 14 个领域（健康、数学、物理、商业、化学、哲学、法律、工程等）

数据清理： - 从 270 万原始题目经过格式标准化、去重、过滤后缩减到 166 万 - 包括统一选项标签（A/B/C/D）、去除非四选一题、去除低质量短题等

难度采样： - 使用 GPT-4o 对 MMLU 和候选题目进行 0-9 级难度分类 - 采用以难度 6 为中心的正态分布进行采样，确保整体难度高于 MMLU - 166 万题 → 5 万题

三模型审核： - 使用 GPT-4o、Gemini、Claude 三个 LLM 从质量和安全两方面审核 - 质量维度：上下文清晰度、逻辑一致性、事实准确性、选项互斥性、正确答案存在性 - 安全维度：无仇恨、无色情、无自残、无暴力 - 三模型评分均值 > 4（满分 5）的题目才保留 - 5 万题 → 2 万题

三条去污染规则：

Rule 1：改写题目（Rephrase Question）
- 减少模型对训练中遇到的题目的依赖
- 不改变题目含义，但改变表述方式
Rule 2：打乱选项（Shuffle Choices）
- 防止模型通过记忆选项顺序来作答
- "以上都不是"类选项保持在最后
Rule 3：随机替换选项（Random Replace Choices）
- 以 50% 概率将某个选项替换为"None of the other choices"
- 替换正确选项时仍保持有效，但需要更多推理
- 替换错误选项时作为干扰项

测试集/验证集设计： - 闭源测试集防止恶意污染 - 开源验证集便于独立验证 - 两者难度和类别分布相似 - 若未来验证集与测试集的差距增大，说明验证集正在被污染

损失函数 / 训练策略¶

本文是评测基准论文，不涉及模型训练。评估方法： - 使用 OpenCompass 平台进行标准化评测 - 支持 5-shot 和 0-shot 评估 - 用户可通过项目主页提交 Hugging Face 模型或 API 进行评测

实验关键数据¶

主实验¶

40+ 模型在 MMLU-CF 上的表现（5-shot Test %）：

分类	模型	MMLU	MMLU-CF (5-shot)	下降
API	GPT-4o	88.0	73.4	-14.6
API	GPT-4-Turbo	86.5	70.4	-16.1
API	GPT-4o-mini	81.8	65.5	-16.3
Large	Qwen2.5-72B-instruct	85.3	71.6	-13.7
Large	Llama-3.3-70B-instruct	86.3	68.8	-17.5
Medium	Qwen2.5-32B-instruct	83.9	69.7	-14.2
Medium	Phi-4-14B	84.8	67.8	-17.0
Small	Qwen2.5-7B-instruct	75.4	61.3	-14.1
Mini	Phi-3.5-mini-3.8B	69.1	57.9	-11.2

所有模型在 MMLU-CF 上的得分显著低于 MMLU，平均下降约 14-17 个百分点。

验证集与测试集一致性： - 绝大多数模型在两个集合上差异 < 1%（\(\Delta\) 列） - 说明两个集合的难度和分布确实相似 - 为未来检测验证集是否被污染提供了基准

消融实验¶

三条去污染规则的累积效果（0-shot）：

规则组合	GPT-4o	GPT-3.5	Llama-3.1-8B
无规则	79.8	65.3	63.8
+Rule 1（改写）	78.6	63.1	62.3
+Rule 1+2（+打乱）	77.9	62.8	61.8
+Rule 1+2+3（+替换）	73.4	58.2	57.1

每条规则都进一步降低了模型得分： - Rule 1 使 GPT-4o 下降 1.2 分，弱模型下降更多 - Rule 3 的效果最大（GPT-4o 下降 4.5 分），说明随机替换选项是最有效的去污染策略

关键发现¶

MMLU 存在严重污染：所有模型在 MMLU-CF 上的表现显著下降，证实 MMLU 评估结果被数据污染显著抬高
GPT-4o 仍是最强模型：即使在去污染后依然保持领先，但优势缩小（88% → 73.4%）
参数效率模型表现突出：Phi-4-14B（67.8%）超越了多个更大模型如 Qwen2-72B（63.7%），展示了架构效率的重要性
Qwen2.5 系列整体表现最佳：在各个尺寸类别中都名列前茅
0-shot vs 5-shot 差异小：大多数模型在两种设置下表现接近，说明 MMLU-CF 主要测试真实知识理解而非 few-shot 适应能力

亮点与洞察¶

系统性去污染方案：区分无意泄露和恶意泄露，分别用规则和闭源策略应对，设计全面
三模型交叉审核：用 GPT-4o、Gemini、Claude 三个 LLM 联合审核避免单一模型偏差
污染监控机制：验证集公开+测试集闭源的设计，使得可以通过两者差距的变化来追踪验证集的污染程度
难度校准：以 MMLU 的难度分布为参照，有意提升整体难度，使基准更有区分力
超大规模数据来源：从 2000 亿文档中筛选，覆盖 3000+ 域名，极大降低了数据已被纳入训练集的概率

局限与展望¶

去污染规则可能意外改变了题目的认知要求（特别是 Rule 3 的随机替换可能改变题目难度分布）
闭源测试集虽防止了泄露，但也限制了学术界的独立验证和复现
14 个领域的覆盖范围是否足够全面值得商榷（如缺少编程相关领域）
依赖 GPT-4o 进行难度分类和质量审核，引入了对特定模型的依赖
未分析去污染处理对不同题目类型（事实记忆 vs 推理）的影响差异

评分¶

创新性：⭐⭐⭐ — 去污染方法较为直观，但系统性执行到位
实验完整性：⭐⭐⭐⭐⭐ — 评测了 40+ 模型，分析全面且细致
实用价值：⭐⭐⭐⭐⭐ — 直接回应了 LLM 评估中的核心痛点，测试集持续维护中
写作质量：⭐⭐⭐⭐ — 结构清晰，数据丰富，图表设计规范