DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models¶
会议: NeurIPS 2025
arXiv: 2507.09424
代码: https://github.com/DataAttributionEval/DATE-LM
领域: LLM数据溯源与评估
关键词: 数据归因、基准评估、毒性过滤、数据选择
一句话总结¶
DATE-LM是首个统一、应用驱动的LLM数据归因基准,涵盖数据选择、毒性过滤、事实归因三大应用,通过公开排行榜促进可复现和公平的方法比较。
研究背景与动机¶
尽管数据归因方法(影响函数、梯度方法等)对LLM开发关键重要,但系统性评估面临三大障碍: 1. 实现复杂性:LLM训练需精细工程,超参数微小差异导致结果波动 2. 计算成本:重训练式评估(LOO)在LLM规模上不可行 3. 应用缺失:大多数工作缺乏下游任务的实际评估
本工作引入DATE-LM框架,统一pipeline + 预训练检查点 + 公开排行榜 + 大规模评估。
方法详解¶
整体框架¶
统一三阶段评估pipeline: 1. 归因评分阶段:给定方法τ、训练集D、参考集D_ref,计算每个样本的得分 2. 子集选择阶段:基于得分执行top-k或概率采样 3. 任务评估阶段:直接评估或重训后评估
支持模块化设计,用户可灵活插入新方法。
关键设计—三大应用任务¶
1. 训练数据选择 - Pre-train:FineWeb → LAMBADA with 7评估集 - Fine-tune:Tulu3指令 → MMLU/GSM8K/BBH - 成本优化:200步衰减阶段而非全量训练
2. 毒性/偏见过滤 - 数据:10k良性 + <100有害样本 - 创新:异质过滤设置(包含对抗式安全样本)考察鲁棒性 - 指标:AURPC(平均不相交排损曲线)
3. 事实归因 - 数据:ROME子集(事实与证据对) - 关键创新:对抗性改写(替换实体如Microsoft→Google)来破坏表面词汇相似性 - 指标:Recall@50、MRR
| 任务 | 模型 | 方法 | SciQ | ARC-E | ARC-C | BoolQ | HellaSwag | 平均 |
|---|---|---|---|---|---|---|---|---|
| Pre-train 10k | 1B | Random | 68.9 | 43.1 | 24.4 | 52.0 | 40.7 | 46.73 |
| - | - | BM25 | 69.2 | 43.9 | 23.9 | 55.6 | 40.6 | 47.49 |
| - | - | Grad-Sim | 68.9 | 44.0 | 24.0 | 55.6 | 40.6 | 47.56 |
| - | - | MATES | 69.6 | 44.2 | 24.4 | 56.5 | 40.8 | 47.76 |
| Fine-tune | 8B | Random | 60.2 | Avg | - | - | - | 60.2 |
| - | - | LESS | 60.0 | - | - | - | - | 60.0 |
| - | - | Rep-Sim | 61.2 | - | - | - | - | 61.2 |
实验关键数据¶
- Pre-train选择:EDU(教育价值分类)在多个阶段接近最优
- Fine-tune:Rep-Sim > 随机 > 高成本方法(LESS/Grad-Sim)
- 毒性过滤:异质设置下性能显著下降(0.82→0.77 AUPRC)
- 事实归因:对抗改写后BM25性能从0.95→0.15 Recall@50
亮点与洞察¶
- 首个全面基准:统一5个应用、8个方法、多个模型的评估
- 应用驱动设计:针对性解决词汇偏差(对抗改写)和过滤鲁棒性(异质设置)
- 简单基线竞争力强:BM25/EDU在多数设置相当或优于复杂方法
- 超参敏感性:Gumbel温度调优对性能影响显著,强调标准化必要性
- 公开排行榜:低门槛提交,促进社区参与
局限性¶
- Pre-train阶段200步衰减可能无法完全反映全量训练特性
- 固定使用Gumbel-top-k,未探索其他多样化采样策略
- 对抗改写的设计仅限实体替换,可能遗漏其他语义变化
- 成本度量(FLOPS vs 墙钟时间)的权衡未完全澄清
相关工作¶
- 数据选择:LESS、MATES、DataInf
- 影响函数:Koh & Liang的经典工作及LLM适配
- 归因评估:LOO vs 应用驱动的权衡
评分¶
⭐⭐⭐⭐⭐ (5/5)