跳转至

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models

会议: NeurIPS 2025
arXiv: 2507.09424
代码: https://github.com/DataAttributionEval/DATE-LM
领域: LLM数据溯源与评估
关键词: 数据归因、基准评估、毒性过滤、数据选择

一句话总结

DATE-LM是首个统一、应用驱动的LLM数据归因基准,涵盖数据选择、毒性过滤、事实归因三大应用,通过公开排行榜促进可复现和公平的方法比较。

研究背景与动机

尽管数据归因方法(影响函数、梯度方法等)对LLM开发关键重要,但系统性评估面临三大障碍: 1. 实现复杂性:LLM训练需精细工程,超参数微小差异导致结果波动 2. 计算成本:重训练式评估(LOO)在LLM规模上不可行 3. 应用缺失:大多数工作缺乏下游任务的实际评估

本工作引入DATE-LM框架,统一pipeline + 预训练检查点 + 公开排行榜 + 大规模评估。

方法详解

整体框架

统一三阶段评估pipeline: 1. 归因评分阶段:给定方法τ、训练集D、参考集D_ref,计算每个样本的得分 2. 子集选择阶段:基于得分执行top-k或概率采样 3. 任务评估阶段:直接评估或重训后评估

支持模块化设计,用户可灵活插入新方法。

关键设计—三大应用任务

1. 训练数据选择 - Pre-train:FineWeb → LAMBADA with 7评估集 - Fine-tune:Tulu3指令 → MMLU/GSM8K/BBH - 成本优化:200步衰减阶段而非全量训练

2. 毒性/偏见过滤 - 数据:10k良性 + <100有害样本 - 创新:异质过滤设置(包含对抗式安全样本)考察鲁棒性 - 指标:AURPC(平均不相交排损曲线)

3. 事实归因 - 数据:ROME子集(事实与证据对) - 关键创新:对抗性改写(替换实体如Microsoft→Google)来破坏表面词汇相似性 - 指标:Recall@50、MRR

任务 模型 方法 SciQ ARC-E ARC-C BoolQ HellaSwag 平均
Pre-train 10k 1B Random 68.9 43.1 24.4 52.0 40.7 46.73
- - BM25 69.2 43.9 23.9 55.6 40.6 47.49
- - Grad-Sim 68.9 44.0 24.0 55.6 40.6 47.56
- - MATES 69.6 44.2 24.4 56.5 40.8 47.76
Fine-tune 8B Random 60.2 Avg - - - 60.2
- - LESS 60.0 - - - - 60.0
- - Rep-Sim 61.2 - - - - 61.2

实验关键数据

  • Pre-train选择:EDU(教育价值分类)在多个阶段接近最优
  • Fine-tune:Rep-Sim > 随机 > 高成本方法(LESS/Grad-Sim)
  • 毒性过滤:异质设置下性能显著下降(0.82→0.77 AUPRC)
  • 事实归因:对抗改写后BM25性能从0.95→0.15 Recall@50

亮点与洞察

  1. 首个全面基准:统一5个应用、8个方法、多个模型的评估
  2. 应用驱动设计:针对性解决词汇偏差(对抗改写)和过滤鲁棒性(异质设置)
  3. 简单基线竞争力强:BM25/EDU在多数设置相当或优于复杂方法
  4. 超参敏感性:Gumbel温度调优对性能影响显著,强调标准化必要性
  5. 公开排行榜:低门槛提交,促进社区参与

局限性

  1. Pre-train阶段200步衰减可能无法完全反映全量训练特性
  2. 固定使用Gumbel-top-k,未探索其他多样化采样策略
  3. 对抗改写的设计仅限实体替换,可能遗漏其他语义变化
  4. 成本度量(FLOPS vs 墙钟时间)的权衡未完全澄清

相关工作

  • 数据选择:LESS、MATES、DataInf
  • 影响函数:Koh & Liang的经典工作及LLM适配
  • 归因评估:LOO vs 应用驱动的权衡

评分

⭐⭐⭐⭐⭐ (5/5)