DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models¶

会议: NeurIPS 2025
arXiv: 2507.09424
代码: https://github.com/DataAttributionEval/DATE-LM
领域: LLM数据溯源与评估
关键词: 数据归因、基准评估、毒性过滤、数据选择

一句话总结¶

DATE-LM是首个统一、应用驱动的LLM数据归因基准，涵盖数据选择、毒性过滤、事实归因三大应用，通过公开排行榜促进可复现和公平的方法比较。

尽管数据归因方法（影响函数、梯度方法等）对LLM开发关键重要，但系统性评估面临三大障碍： 1. 实现复杂性：LLM训练需精细工程，超参数微小差异导致结果波动 2. 计算成本：重训练式评估（LOO）在LLM规模上不可行 3. 应用缺失：大多数工作缺乏下游任务的实际评估

本工作引入DATE-LM框架，统一pipeline + 预训练检查点 + 公开排行榜 + 大规模评估。

统一三阶段评估pipeline： 1. 归因评分阶段：给定方法τ、训练集D、参考集D_ref，计算每个样本的得分 2. 子集选择阶段：基于得分执行top-k或概率采样 3. 任务评估阶段：直接评估或重训后评估

支持模块化设计，用户可灵活插入新方法。

1. 训练数据选择 - Pre-train：FineWeb → LAMBADA with 7评估集 - Fine-tune：Tulu3指令 → MMLU/GSM8K/BBH - 成本优化：200步衰减阶段而非全量训练

2. 毒性/偏见过滤 - 数据：10k良性 + <100有害样本 - 创新：异质过滤设置（包含对抗式安全样本）考察鲁棒性 - 指标：AURPC（平均不相交排损曲线）

3. 事实归因 - 数据：ROME子集（事实与证据对） - 关键创新：对抗性改写（替换实体如Microsoft→Google）来破坏表面词汇相似性 - 指标：Recall@50、MRR

任务	模型	方法	SciQ	ARC-E	ARC-C	BoolQ	HellaSwag	平均
Pre-train 10k	1B	Random	68.9	43.1	24.4	52.0	40.7	46.73
-	-	BM25	69.2	43.9	23.9	55.6	40.6	47.49
-	-	Grad-Sim	68.9	44.0	24.0	55.6	40.6	47.56
-	-	MATES	69.6	44.2	24.4	56.5	40.8	47.76
Fine-tune	8B	Random	60.2	Avg	-	-	-	60.2
-	-	LESS	60.0	-	-	-	-	60.0
-	-	Rep-Sim	61.2	-	-	-	-	61.2

⭐⭐⭐⭐⭐ (5/5)