AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge¶
会议: ACL 2025
arXiv: 2412.13670
代码: GitHub
领域: LLM评测 / 数据污染
关键词: 数据污染, 基准更新, 反泄露, 知识截止, 自动构建, 真实世界知识
一句话总结¶
提出 AntiLeakBench——自动化反泄露基准框架,通过识别 LLM 知识截止后更新的真实世界新知识自动构建 QA 测试样本(而非简单收集新发布数据),确保测试知识严格不在训练集中,全自动流程无需人工标注,实验证实截止后性能普遍下降验证了数据污染的普遍存在。
背景与动机¶
数据污染——测试数据泄漏到训练集中——严重损害 LLM 评测可靠性。现有动态基准(LiveBench、RealTimeQA)收集截止后新发布的数据但有两大弱点:
- 污染免疫性弱:新发布的数据(如 LeetCode 题目、考试题)可能包含截止前已有的知识——"新发布"≠"新知识"
- 依赖人工维护:标注新数据需大量人工,导致更新频率低(RealTimeQA/KoLA 已很少更新)
核心问题¶
如何构建严格无污染的评测基准,同时实现全自动更新以适应不断涌现的新 LLM?
方法详解¶
核心思路¶
不直接使用新发布数据,而是识别截止后更新的真实世界知识,然后构建基于这些新知识的 QA 样本。
自动构建流程¶
- 识别新知识:监控知识库(如 Wikipedia)的编辑历史,提取截止日期后新增或修改的知识条目
- 构建 QA 样本:基于新知识自动生成问题-答案对,附带真实世界支撑文档
- 质量控制:验证问题确实需要新知识才能回答(旧知识无法解答)
严格无污染保证¶
- 新知识在 LLM 训练数据中不存在(截止后才产生)
- 不只是"新题目"——而是题目的答案依赖于新知识
全自动化¶
- 无需人工标注或审核
- 可按需为任何新 LLM(根据其截止日期)自动生成独立基准
- 大幅降低维护成本
实验关键数据¶
- 多个 LLM 在截止前后的样本上性能对比:截止后普遍下降
- 这一趋势直接证实了数据污染的普遍存在
- AntiLeakBench 有效区分被污染和未被污染的评测场景
- 已有两个版本覆盖不同时间段
亮点¶
- "新知识"而非"新数据"——概念上更严格地保证无污染
- 全自动零人工——可持续更新,适应 LLM 快速迭代
- 截止前后对比设计——直接展示污染影响
- 与 LiveBench/RealTimeQA 互补——本框架保证知识级无污染
局限性 / 可改进方向¶
- 依赖 Wikipedia 等知识库的更新频率和覆盖面
- 自动生成 QA 的质量可能不如专家编写
- 仅知识型 QA:推理/数学/代码等任务类型未覆盖
- 知识截止日期可能不完全准确——模型可能在截止前就接触到未来知识
与相关工作的对比¶
- vs LiveBench:LiveBench 从考试/LeetCode 收集新题但知识可能旧;AntiLeakBench 确保知识本身是新的
- vs RealTimeQA:需人工维护已不频繁更新;AntiLeakBench 全自动
- vs AIR-Bench:AIR-Bench 聚焦 IR 评测;AntiLeakBench 聚焦知识型 QA 的防污染
启发与关联¶
- "新发布 ≠ 新知识"是评测社区需要认识到的关键区分
- 全自动基准更新是未来评测基础设施的必然方向
- 监控知识库编辑历史作为"知识新鲜度"信号可推广到更多场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "新知识"概念和全自动反泄露框架都是新颖贡献
- 实验充分度: ⭐⭐⭐⭐ 多 LLM 截止前后对比,验证充分
- 写作质量: ⭐⭐⭐⭐ 动机和方法描述清晰
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 评测基础设施有重要贡献