跳转至

AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

会议: ACL 2025
arXiv: 2412.13670
代码: GitHub
领域: LLM评测 / 数据污染
关键词: 数据污染, 基准更新, 反泄露, 知识截止, 自动构建, 真实世界知识

一句话总结

提出 AntiLeakBench——自动化反泄露基准框架,通过识别 LLM 知识截止后更新的真实世界新知识自动构建 QA 测试样本(而非简单收集新发布数据),确保测试知识严格不在训练集中,全自动流程无需人工标注,实验证实截止后性能普遍下降验证了数据污染的普遍存在。

背景与动机

数据污染——测试数据泄漏到训练集中——严重损害 LLM 评测可靠性。现有动态基准(LiveBench、RealTimeQA)收集截止后新发布的数据但有两大弱点:

  1. 污染免疫性弱:新发布的数据(如 LeetCode 题目、考试题)可能包含截止前已有的知识——"新发布"≠"新知识"
  2. 依赖人工维护:标注新数据需大量人工,导致更新频率低(RealTimeQA/KoLA 已很少更新)

核心问题

如何构建严格无污染的评测基准,同时实现全自动更新以适应不断涌现的新 LLM?

方法详解

核心思路

不直接使用新发布数据,而是识别截止后更新的真实世界知识,然后构建基于这些新知识的 QA 样本。

自动构建流程

  1. 识别新知识:监控知识库(如 Wikipedia)的编辑历史,提取截止日期后新增或修改的知识条目
  2. 构建 QA 样本:基于新知识自动生成问题-答案对,附带真实世界支撑文档
  3. 质量控制:验证问题确实需要新知识才能回答(旧知识无法解答)

严格无污染保证

  • 新知识在 LLM 训练数据中不存在(截止后才产生)
  • 不只是"新题目"——而是题目的答案依赖于新知识

全自动化

  • 无需人工标注或审核
  • 可按需为任何新 LLM(根据其截止日期)自动生成独立基准
  • 大幅降低维护成本

实验关键数据

  • 多个 LLM 在截止前后的样本上性能对比:截止后普遍下降
  • 这一趋势直接证实了数据污染的普遍存在
  • AntiLeakBench 有效区分被污染和未被污染的评测场景
  • 已有两个版本覆盖不同时间段

亮点

  • "新知识"而非"新数据"——概念上更严格地保证无污染
  • 全自动零人工——可持续更新,适应 LLM 快速迭代
  • 截止前后对比设计——直接展示污染影响
  • 与 LiveBench/RealTimeQA 互补——本框架保证知识级无污染

局限性 / 可改进方向

  • 依赖 Wikipedia 等知识库的更新频率和覆盖面
  • 自动生成 QA 的质量可能不如专家编写
  • 仅知识型 QA:推理/数学/代码等任务类型未覆盖
  • 知识截止日期可能不完全准确——模型可能在截止前就接触到未来知识

与相关工作的对比

  • vs LiveBench:LiveBench 从考试/LeetCode 收集新题但知识可能旧;AntiLeakBench 确保知识本身是新的
  • vs RealTimeQA:需人工维护已不频繁更新;AntiLeakBench 全自动
  • vs AIR-Bench:AIR-Bench 聚焦 IR 评测;AntiLeakBench 聚焦知识型 QA 的防污染

启发与关联

  • "新发布 ≠ 新知识"是评测社区需要认识到的关键区分
  • 全自动基准更新是未来评测基础设施的必然方向
  • 监控知识库编辑历史作为"知识新鲜度"信号可推广到更多场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "新知识"概念和全自动反泄露框架都是新颖贡献
  • 实验充分度: ⭐⭐⭐⭐ 多 LLM 截止前后对比,验证充分
  • 写作质量: ⭐⭐⭐⭐ 动机和方法描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 评测基础设施有重要贡献