Deprecating Benchmarks: Criteria and Framework¶
会议: ICML 2025
arXiv: 2507.06434
代码: 无
领域: AI 评测与基准
关键词: 基准废弃、评测生命周期、AI 治理、基准饱和、数据污染
一句话总结¶
提出了一套判断 AI 基准何时应被废弃的 7 项标准 和一个包含评估-报告-通知三阶段的 废弃框架,并以 EU AI Office 为例给出了制度化落地方案。
研究背景与动机¶
随着前沿 AI 模型能力的快速提升,基准测试(benchmark)是评估和比较模型性能的主要手段,也逐渐被 EU AI Act 等法规纳入合规要求。然而,当前基准生态存在严重问题:
基准惰性:许多基准因历史原因持续使用,即使已不再有效。例如 ImageNet 随 AlexNet 走红后成为事实标准,阻碍了更好替代方案的采用(Benchmark Lottery 问题)。
商业激励扭曲:AI 公司缺乏动力废弃对自身有利的基准。Meta LLaMA 4 针对会话基准进行微调 (benchmark gaming) 即为典型案例。
安全洗白风险:过时或有缺陷的基准可能夸大模型能力,甚至掩盖安全隐患(safety-washing),给公众和监管者传递虚假信号。
缺乏指导:目前没有系统性的标准或流程来指导何时以及如何废弃基准。
本文的核心论点是:过时或有缺陷的基准必须被主动废弃,以防止扭曲的能力评估、浪费评测资源和安全洗白。
方法详解¶
整体框架¶
本文的贡献分为两大部分:废弃标准(Criteria)和 废弃框架(Framework)。
废弃标准 (Section 3) 废弃框架 (Section 4)
┌─────────────────┐ ┌─────────────────────┐
│ 1. 饱和 │ │ Phase 1: 评估 │
│ 2. 数据污染 │ → │ Phase 2: 报告 │
│ 3. 统计偏差 │ │ Phase 3: 通知 │
│ 4. 高标注错误率 │ └─────────────────────┘
│ 5. 任务过时 │ ↓
│ 6. 假设失效 │ ┌─────────────────────┐
│ 7. 语义漂移 │ │ 落地方案 (Section 5) │
└─────────────────┘ │ EU AI Office 示例 │
└─────────────────────┘
关键设计¶
7 项废弃标准¶
作者将标准分为定量信号和定性问题两大类:
| # | 标准 | 类别 | 描述 | 典型案例 |
|---|---|---|---|---|
| 1 | 饱和 (Saturation) | 定量 | 模型性能逼近或达到评测上限,进一步提升无法被有效区分 | MMLU、GSM8K、HumanEval |
| 2 | 数据污染 (Contamination) | 定量 | 模型因数据泄露记忆了基准内容,性能不再反映真实泛化能力 | 多项 LLM 基准泄露事件 |
| 3 | 统计偏差 (Statistical Bias) | 定量 | 类别不均衡导致模型利用数据分布捷径而非展示目标能力 | 异常检测基准中多数正常样本主导 |
| 4 | 高标注错误率 | 定性 | 标注者引入的错误损害基准数据质量 | MMLU 病毒学子集 57% 问题有误 |
| 5 | 任务过时 (Task Obsolescence) | 定性 | 任务本身不再具有评测意义或已被解决 | BIG-bench 中字母组词任务 |
| 6 | 假设失效 (Invalidated Assumptions) | 定性 | 基准设计的简化假设不再成立 | Needle-in-a-Haystack 单事实检索 vs 真实 RAG 多信息推理 |
| 7 | 语义漂移 (Semantic Drift) | 定性 | 任务含义或标签解释随时间变化 | 数据集创建时冻结的语言/文化语境 |
作者强调这些标准是非穷尽的、软性启发式,类似判例法,随社区经验积累而演进。
三阶段废弃框架¶
Phase 1: 评估 (Assessment)
- 使用上述 7 项标准判断是否需要废弃
- 确定废弃级别:部分废弃(更新/升级有效组件)vs 完全废弃
- 统计偏差、数据污染 → 适合部分废弃(重采样、删除泄露数据)
- 任务过时、假设失效 → 通常需要完全废弃
- 标注错误 → 视错误规模和影响而定
- 建立正式的申诉流程,允许基准开发者质疑废弃决定
Phase 2: 报告 (Reporting)
- 废弃报告应包含:废弃理由与风险证据、未来使用指南(完全/部分)、实施时间线、替代基准建议、历史结果解读方法、授权使用条款(研究/存档目的)
- 本文以 SWE-bench v1.0 和 SWE-bench Lite v1.0 为案例,提供了两份半虚构的废弃报告模板
Phase 3: 通知 (Notification)
- 在原始发布渠道发布废弃通知
- 类似学术撤稿通知的视觉标识
- 关键用户(如安全关键系统的评测者)直接通知
- 使用版本控制区分原始和修改版本
损失函数 / 训练策略¶
本文为立场/框架论文,不涉及模型训练。核心"策略"体现为制度化落地方案——以 EU AI Office (AIO) 为蓝本:
- 评估:AIO 编制并定期审查安全关键任务(如 CBRN 能力)的常用基准,产出废弃清单
- 报告:AIO 为每个基准创建废弃报告,含废弃决定、理由、时间线、替代方案、历史结果解读指南
- 通知:AIO 联系各成员国 AI 主管部门,要求商业部署模型在规定时间内更新模型卡和技术报告
实验关键数据¶
主实验¶
本文为框架论文,无传统实验。核心论据来自文献综述中的定量证据:
| 基准 | 问题 | 关键数据 | 来源 |
|---|---|---|---|
| MMLU (全集) | 标注错误 | 6.49% 的问题有错 | Gema et al. 2024 |
| MMLU 病毒学子集 | 标注错误 | 57% 的问题有错 | Gema et al. 2024 |
| SWE-bench v1.0 | 多类缺陷 | 68.3% 样本因问题被过滤 | Chowdhury et al. 2024 |
| SWE-bench Lite v1.0 | 问题描述质量 | 4.3% 含完整 ground truth;10% 缺关键信息;5% 含误导方案 | Xia et al. 2024 |
| MMLU / GSM8K / HumanEval | 饱和 | 前沿模型已逼近上限 | Maslej et al. 2025 |
消融实验¶
以废弃级别(部分 vs 完全)为"消融变量"的决策指南:
| 废弃标准 | 建议废弃级别 | 说明 |
|---|---|---|
| 饱和 | 视情况 | 若可扩展难度则部分废弃,否则完全废弃 |
| 数据污染 | 部分废弃 | 移除泄露数据、引入随机变量 |
| 统计偏差 | 部分废弃 | 重采样以平衡类别分布 |
| 高标注错误率 (少量) | 部分废弃 | 纠正标注并记录更改 |
| 高标注错误率 (大量) | 完全废弃 | 错误过多无法修复 |
| 任务过时 | 完全废弃 | 任务本身失去评测价值 |
| 假设失效 | 完全废弃 | 基准设计与现实脱节 |
| 语义漂移 | 视情况 | 需评估漂移程度和影响 |
关键发现¶
- 基准问题普遍存在:Reuel et al. (2024) 分析 24 个常用基准发现"即使是常见基准也有显著缺陷"
- 商业激励阻碍废弃:AI 公司倾向于保留对自身有利的基准,且无监管要求重新评估基准有效性
- 前沿模型使废弃更易操作:对前沿模型而言,基准主要是推理时工件(test-time artifacts),不需要显式训练,因此新基准可以立即应用于已有模型,废弃成本更低
- 第三方废弃至关重要:当基准开发者无力或不愿废弃时,治理机构必须承担这一角色
亮点与洞察¶
- 将基准废弃定位为治理问题:不仅是技术问题,更是涉及法规合规(EU AI Act)、安全评估和公共信任的制度问题
- 部分废弃概念:提供了比"全有或全无"更灵活的实践路径,允许保留有价值的组件
- 申诉机制设计:借鉴法律程序的正当程序原则,确保废弃决定的公正性
- SWE-bench 案例报告:以具体、可操作的模板展示了废弃报告的实际写法
- 与学术撤稿类比:将基准废弃通知与论文撤稿通知类比,提供了清晰的实践参照
局限与展望¶
- 缺乏定量阈值:标准描述停留在定性层面,未提供具体的数值阈值(如"饱和"应定义为分数达到多少才算?)
- 仅聚焦前沿模型:对非前沿模型(如领域专用模型、小型模型)的基准废弃讨论不足
- 执行力存疑:框架依赖治理机构的主动介入,但现实中缺乏对应的执法机制
- 未涉及基准替代方案:只讨论"何时废弃",未系统讨论"用什么替代"
- 跨文化适用性:框架以 EU 为主要落地场景,对其他法律体系的适用性未展开讨论
- 实证验证缺失:2 份 SWE-bench 废弃报告为半虚构案例,未在真实治理流程中验证
相关工作与启发¶
- Luccioni et al. (2022):最直接的前驱工作,提出了数据集废弃框架。本文在此基础上聚焦基准、增加了部分废弃概念和治理层面建议
- Reuel et al. (2024) BetterBench:评估 24 个基准质量,揭示了普遍缺陷,为本文提供了实证基础
- Eriksson et al. (2025):指出当前基准是脆弱的风险评估工具,提出了"信任哪些基准"的关键问题
- Raji et al. (2021):批评将基准脱离上下文地广泛应用,强调评测的情境性
- Ren et al. (2024) SafetyWashing:定义并分析了安全洗白现象,为废弃的紧迫性提供了安全论据
- 启发:可作为论文/项目中讨论评测方案合理性的理论依据;废弃标准清单可直接用于审视自己使用的基准
评分¶
- 新颖性: ★★★☆☆ — 在数据集废弃(Luccioni 2022)基础上的增量推进,聚焦基准和治理层
- 实用性: ★★★★☆ — 标准清单和废弃报告模板有直接参考价值
- 严谨性: ★★★☆☆ — 框架论文,缺乏实证验证和定量阈值
- 清晰度: ★★★★☆ — 结构清晰,SWE-bench 案例增强了可操作性
- 影响力: ★★★★☆ — 在 AI 治理受关注的背景下,有潜在的政策影响力
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评
相关论文¶
- [NeurIPS 2025] Measuring What Matters: Construct Validity in Large Language Model Benchmarks
- [AAAI 2026] Evaluating LLMs for Police Decision-Making: A Framework Based on Police Action Scenarios
- [ICML 2025] PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model
- [ICML 2025] Aligning LLMs by Predicting Preferences from User Writing Samples
- [ICML 2025] Recommendations and Reporting Checklist for Rigorous & Transparent Human Baselines in Model Evaluations