跳转至

📚 AI Paper Notes

AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge

AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge¶

会议: ACL 2025
arXiv: 2412.13670
代码: GitHub
领域: LLM评测 / 数据污染
关键词: 数据污染, 基准更新, 反泄露, 知识截止, 自动构建, 真实世界知识

一句话总结¶

提出 AntiLeakBench——自动化反泄露基准框架，通过识别 LLM 知识截止后更新的真实世界新知识自动构建 QA 测试样本（而非简单收集新发布数据），确保测试知识严格不在训练集中，全自动流程无需人工标注，实验证实截止后性能普遍下降验证了数据污染的普遍存在。

背景与动机¶

数据污染——测试数据泄漏到训练集中——严重损害 LLM 评测可靠性。现有动态基准（LiveBench、RealTimeQA）收集截止后新发布的数据但有两大弱点：

污染免疫性弱：新发布的数据（如 LeetCode 题目、考试题）可能包含截止前已有的知识——"新发布"≠"新知识"
依赖人工维护：标注新数据需大量人工，导致更新频率低（RealTimeQA/KoLA 已很少更新）

核心问题¶

如何构建严格无污染的评测基准，同时实现全自动更新以适应不断涌现的新 LLM？

方法详解¶

核心思路¶

不直接使用新发布数据，而是识别截止后更新的真实世界知识，然后构建基于这些新知识的 QA 样本。

自动构建流程¶

识别新知识：监控知识库（如 Wikipedia）的编辑历史，提取截止日期后新增或修改的知识条目
构建 QA 样本：基于新知识自动生成问题-答案对，附带真实世界支撑文档
质量控制：验证问题确实需要新知识才能回答（旧知识无法解答）

严格无污染保证¶

新知识在 LLM 训练数据中不存在（截止后才产生）
不只是"新题目"——而是题目的答案依赖于新知识

全自动化¶

无需人工标注或审核
可按需为任何新 LLM（根据其截止日期）自动生成独立基准
大幅降低维护成本

实验关键数据¶

多个 LLM 在截止前后的样本上性能对比：截止后普遍下降
这一趋势直接证实了数据污染的普遍存在
AntiLeakBench 有效区分被污染和未被污染的评测场景
已有两个版本覆盖不同时间段

亮点¶

"新知识"而非"新数据"——概念上更严格地保证无污染
全自动零人工——可持续更新，适应 LLM 快速迭代
截止前后对比设计——直接展示污染影响
与 LiveBench/RealTimeQA 互补——本框架保证知识级无污染

局限性 / 可改进方向¶

依赖 Wikipedia 等知识库的更新频率和覆盖面
自动生成 QA 的质量可能不如专家编写
仅知识型 QA：推理/数学/代码等任务类型未覆盖
知识截止日期可能不完全准确——模型可能在截止前就接触到未来知识

与相关工作的对比¶

vs LiveBench：LiveBench 从考试/LeetCode 收集新题但知识可能旧；AntiLeakBench 确保知识本身是新的
vs RealTimeQA：需人工维护已不频繁更新；AntiLeakBench 全自动
vs AIR-Bench：AIR-Bench 聚焦 IR 评测；AntiLeakBench 聚焦知识型 QA 的防污染

启发与关联¶

"新发布 ≠ 新知识"是评测社区需要认识到的关键区分
全自动基准更新是未来评测基础设施的必然方向
监控知识库编辑历史作为"知识新鲜度"信号可推广到更多场景

评分¶

新颖性: ⭐⭐⭐⭐⭐ "新知识"概念和全自动反泄露框架都是新颖贡献
实验充分度: ⭐⭐⭐⭐ 多 LLM 截止前后对比，验证充分
写作质量: ⭐⭐⭐⭐ 动机和方法描述清晰
价值: ⭐⭐⭐⭐⭐ 对 LLM 评测基础设施有重要贡献