跳转至

Deprecating Benchmarks: Criteria and Framework

会议: ICML 2025
arXiv: 2507.06434
代码: 无
领域: AI 评测与基准
关键词: 基准废弃、评测生命周期、AI 治理、基准饱和、数据污染

一句话总结

提出了一套判断 AI 基准何时应被废弃的 7 项标准 和一个包含评估-报告-通知三阶段的 废弃框架,并以 EU AI Office 为例给出了制度化落地方案。

研究背景与动机

随着前沿 AI 模型能力的快速提升,基准测试(benchmark)是评估和比较模型性能的主要手段,也逐渐被 EU AI Act 等法规纳入合规要求。然而,当前基准生态存在严重问题:

基准惰性:许多基准因历史原因持续使用,即使已不再有效。例如 ImageNet 随 AlexNet 走红后成为事实标准,阻碍了更好替代方案的采用(Benchmark Lottery 问题)。

商业激励扭曲:AI 公司缺乏动力废弃对自身有利的基准。Meta LLaMA 4 针对会话基准进行微调 (benchmark gaming) 即为典型案例。

安全洗白风险:过时或有缺陷的基准可能夸大模型能力,甚至掩盖安全隐患(safety-washing),给公众和监管者传递虚假信号。

缺乏指导:目前没有系统性的标准或流程来指导何时以及如何废弃基准。

本文的核心论点是:过时或有缺陷的基准必须被主动废弃,以防止扭曲的能力评估、浪费评测资源和安全洗白。

方法详解

整体框架

本文的贡献分为两大部分:废弃标准(Criteria)和 废弃框架(Framework)。

废弃标准 (Section 3)          废弃框架 (Section 4)
┌─────────────────┐          ┌─────────────────────┐
│ 1. 饱和          │          │ Phase 1: 评估        │
│ 2. 数据污染       │    →     │ Phase 2: 报告        │
│ 3. 统计偏差       │          │ Phase 3: 通知        │
│ 4. 高标注错误率    │          └─────────────────────┘
│ 5. 任务过时       │                   ↓
│ 6. 假设失效       │          ┌─────────────────────┐
│ 7. 语义漂移       │          │ 落地方案 (Section 5) │
└─────────────────┘          │ EU AI Office 示例    │
                             └─────────────────────┘

关键设计

7 项废弃标准

作者将标准分为定量信号定性问题两大类:

# 标准 类别 描述 典型案例
1 饱和 (Saturation) 定量 模型性能逼近或达到评测上限,进一步提升无法被有效区分 MMLU、GSM8K、HumanEval
2 数据污染 (Contamination) 定量 模型因数据泄露记忆了基准内容,性能不再反映真实泛化能力 多项 LLM 基准泄露事件
3 统计偏差 (Statistical Bias) 定量 类别不均衡导致模型利用数据分布捷径而非展示目标能力 异常检测基准中多数正常样本主导
4 高标注错误率 定性 标注者引入的错误损害基准数据质量 MMLU 病毒学子集 57% 问题有误
5 任务过时 (Task Obsolescence) 定性 任务本身不再具有评测意义或已被解决 BIG-bench 中字母组词任务
6 假设失效 (Invalidated Assumptions) 定性 基准设计的简化假设不再成立 Needle-in-a-Haystack 单事实检索 vs 真实 RAG 多信息推理
7 语义漂移 (Semantic Drift) 定性 任务含义或标签解释随时间变化 数据集创建时冻结的语言/文化语境

作者强调这些标准是非穷尽的、软性启发式,类似判例法,随社区经验积累而演进。

三阶段废弃框架

Phase 1: 评估 (Assessment)

  • 使用上述 7 项标准判断是否需要废弃
  • 确定废弃级别:部分废弃(更新/升级有效组件)vs 完全废弃
  • 统计偏差、数据污染 → 适合部分废弃(重采样、删除泄露数据)
  • 任务过时、假设失效 → 通常需要完全废弃
  • 标注错误 → 视错误规模和影响而定
  • 建立正式的申诉流程,允许基准开发者质疑废弃决定

Phase 2: 报告 (Reporting)

  • 废弃报告应包含:废弃理由与风险证据、未来使用指南(完全/部分)、实施时间线、替代基准建议、历史结果解读方法、授权使用条款(研究/存档目的)
  • 本文以 SWE-bench v1.0SWE-bench Lite v1.0 为案例,提供了两份半虚构的废弃报告模板

Phase 3: 通知 (Notification)

  • 在原始发布渠道发布废弃通知
  • 类似学术撤稿通知的视觉标识
  • 关键用户(如安全关键系统的评测者)直接通知
  • 使用版本控制区分原始和修改版本

损失函数 / 训练策略

本文为立场/框架论文,不涉及模型训练。核心"策略"体现为制度化落地方案——以 EU AI Office (AIO) 为蓝本:

  • 评估:AIO 编制并定期审查安全关键任务(如 CBRN 能力)的常用基准,产出废弃清单
  • 报告:AIO 为每个基准创建废弃报告,含废弃决定、理由、时间线、替代方案、历史结果解读指南
  • 通知:AIO 联系各成员国 AI 主管部门,要求商业部署模型在规定时间内更新模型卡和技术报告

实验关键数据

主实验

本文为框架论文,无传统实验。核心论据来自文献综述中的定量证据:

基准 问题 关键数据 来源
MMLU (全集) 标注错误 6.49% 的问题有错 Gema et al. 2024
MMLU 病毒学子集 标注错误 57% 的问题有错 Gema et al. 2024
SWE-bench v1.0 多类缺陷 68.3% 样本因问题被过滤 Chowdhury et al. 2024
SWE-bench Lite v1.0 问题描述质量 4.3% 含完整 ground truth;10% 缺关键信息;5% 含误导方案 Xia et al. 2024
MMLU / GSM8K / HumanEval 饱和 前沿模型已逼近上限 Maslej et al. 2025

消融实验

以废弃级别(部分 vs 完全)为"消融变量"的决策指南:

废弃标准 建议废弃级别 说明
饱和 视情况 若可扩展难度则部分废弃,否则完全废弃
数据污染 部分废弃 移除泄露数据、引入随机变量
统计偏差 部分废弃 重采样以平衡类别分布
高标注错误率 (少量) 部分废弃 纠正标注并记录更改
高标注错误率 (大量) 完全废弃 错误过多无法修复
任务过时 完全废弃 任务本身失去评测价值
假设失效 完全废弃 基准设计与现实脱节
语义漂移 视情况 需评估漂移程度和影响

关键发现

  1. 基准问题普遍存在:Reuel et al. (2024) 分析 24 个常用基准发现"即使是常见基准也有显著缺陷"
  2. 商业激励阻碍废弃:AI 公司倾向于保留对自身有利的基准,且无监管要求重新评估基准有效性
  3. 前沿模型使废弃更易操作:对前沿模型而言,基准主要是推理时工件(test-time artifacts),不需要显式训练,因此新基准可以立即应用于已有模型,废弃成本更低
  4. 第三方废弃至关重要:当基准开发者无力或不愿废弃时,治理机构必须承担这一角色

亮点与洞察

  1. 将基准废弃定位为治理问题:不仅是技术问题,更是涉及法规合规(EU AI Act)、安全评估和公共信任的制度问题
  2. 部分废弃概念:提供了比"全有或全无"更灵活的实践路径,允许保留有价值的组件
  3. 申诉机制设计:借鉴法律程序的正当程序原则,确保废弃决定的公正性
  4. SWE-bench 案例报告:以具体、可操作的模板展示了废弃报告的实际写法
  5. 与学术撤稿类比:将基准废弃通知与论文撤稿通知类比,提供了清晰的实践参照

局限与展望

  1. 缺乏定量阈值:标准描述停留在定性层面,未提供具体的数值阈值(如"饱和"应定义为分数达到多少才算?)
  2. 仅聚焦前沿模型:对非前沿模型(如领域专用模型、小型模型)的基准废弃讨论不足
  3. 执行力存疑:框架依赖治理机构的主动介入,但现实中缺乏对应的执法机制
  4. 未涉及基准替代方案:只讨论"何时废弃",未系统讨论"用什么替代"
  5. 跨文化适用性:框架以 EU 为主要落地场景,对其他法律体系的适用性未展开讨论
  6. 实证验证缺失:2 份 SWE-bench 废弃报告为半虚构案例,未在真实治理流程中验证

相关工作与启发

  • Luccioni et al. (2022):最直接的前驱工作,提出了数据集废弃框架。本文在此基础上聚焦基准、增加了部分废弃概念和治理层面建议
  • Reuel et al. (2024) BetterBench:评估 24 个基准质量,揭示了普遍缺陷,为本文提供了实证基础
  • Eriksson et al. (2025):指出当前基准是脆弱的风险评估工具,提出了"信任哪些基准"的关键问题
  • Raji et al. (2021):批评将基准脱离上下文地广泛应用,强调评测的情境性
  • Ren et al. (2024) SafetyWashing:定义并分析了安全洗白现象,为废弃的紧迫性提供了安全论据
  • 启发:可作为论文/项目中讨论评测方案合理性的理论依据;废弃标准清单可直接用于审视自己使用的基准

评分

  • 新颖性: ★★★☆☆ — 在数据集废弃(Luccioni 2022)基础上的增量推进,聚焦基准和治理层
  • 实用性: ★★★★☆ — 标准清单和废弃报告模板有直接参考价值
  • 严谨性: ★★★☆☆ — 框架论文,缺乏实证验证和定量阈值
  • 清晰度: ★★★★☆ — 结构清晰,SWE-bench 案例增强了可操作性
  • 影响力: ★★★★☆ — 在 AI 治理受关注的背景下,有潜在的政策影响力

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评

相关论文