跳转至

DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models

会议: NeurIPS 2025
arXiv: 2507.09424
代码: GitHub
领域: 社会计算 / 数据归因
关键词: 数据归因, benchmark, LLM, 数据选择, 事实溯源

一句话总结

DATE-LM构建了首个面向LLM的统一数据归因评估基准,通过训练数据选择、毒性过滤和事实归因三大应用驱动任务系统评估多种归因方法,发现无单一方法全面占优且简单基线在某些场景可媲美归因方法。

研究背景与动机

领域现状 数据归因方法量化训练数据对模型输出的影响,在数据集策展、模型可解释性和数据定价等方面日益重要,已有LESS、MATES等针对LLM的方法涌现。

现有痛点 LLM训练栈复杂导致方法间难以公平比较;基于重训练的评估协议计算成本巨大;现有工作缺乏全面的应用驱动评估,且常忽略非归因基线的对比。

核心矛盾 数据归因方法在LLM规模下的真实效用不明确——它们在不同应用中的性价比如何?是否值得投入高计算成本?

本文目标 提供统一、可扩展的基准平台,使研究者在多种LLM架构和任务上进行公平、可复现的数据归因方法对比。

切入角度 设计模块化三阶段评估管线(归因评分→子集选择→任务评估),配合预训练检查点和公开排行榜降低评估门槛。

核心 idea 通过统一管线和应用驱动的任务设计,实现首次大规模、系统性的LLM数据归因方法对比。

方法详解

整体框架

DATE-LM包含三阶段统一管线:(1) 归因评分——使用方法 \(\tau\) 对训练集 \(\mathcal{D}\) 中每个样本相对参考集 \(\mathcal{D}_{ref}\) 打分,得到 \(\mathcal{S} = \tau(\mathcal{D}, \mathcal{D}_{ref}, \theta)\);(2) 子集选择——基于 \(\mathcal{S}\) 通过top-k或概率采样选取子集 \(\mathcal{D}_s\);(3) 任务评估——在 \(\mathcal{D}_s\) 上运行下游任务并计算指标。管线对 \(\tau\) 不可知,新方法只需提供评分即可接入。

关键设计

  1. 训练数据选择任务:

    • 功能:评估归因方法选出高质量训练数据以提升LLM能力
    • 核心思路:预训练设定使用FineWeb+LAMBADA,通过Gumbel-top-k采样保证多样性,在SciQ/ARC/BoolQ等7个任务上评估;微调设定使用Tulu 3+MMLU/GSM8K/BBH。采用短训练(200步WSD调度)代替完整预训练降低成本
    • 设计动机:统一使用Gumbel-top-k隔离归因评分函数本身的效果,避免不同选择策略(聚类、多臂赌博等)混淆比较
  2. 毒性/偏见过滤任务:

    • 功能:评估归因方法从训练集中检测有害样本的能力
    • 核心思路:构造 \(\mathcal{D} = \mathcal{D}_{benign} \cup \mathcal{D}_{unsafe}\)(10K良性+<100有害),以AUPRC评估。创新引入异构过滤——在良性数据中加入安全对齐的"干扰"样本(如拒绝有害提问的回答),使得有害数据更难区分
    • 设计动机:同构过滤过于简单,异构设定更贴近实际安全对齐场景,是更严格但更有意义的测试
  3. 事实归因任务:

    • 功能:追溯LLM输出事实到训练中的支撑证据
    • 核心思路:基于ROME数据集,使用Recall@50和MRR评估。关键引入反事实设定——用相关但错误的实体(如Microsoft→Google)替换支撑证据中的实体,打破词汇重叠,迫使方法捕捉语义贡献
    • 设计动机:先前基准严重偏向词汇重叠检测,BM25轻易得到高分,反事实设定使评估更公平

实验关键数据

主实验——预训练数据选择(1B模型, 30K步)

方法 7任务平均 FLOPS
Random 49.83
BM25 50.26
Grad Sim 50.26 11×
MATES 50.13 1.13×
EDU 50.63 1.07×

毒性过滤(平均AUPRC)

方法 同构 异构
WildGuard(基线) 0.827 0.817
LESS 0.704 0.515
Grad Sim 0.584 0.466

消融实验——Gumbel温度敏感性

温度 效果
过低(0.1) 多样性不足,部分方法低于Random
适中(0.5-1.0) 多数方法达最优
过高(2.0) 随机性过强,退化为均匀采样

关键发现

  • 无单一归因方法在所有任务上占优
  • 简单非归因基线(EDU、WildGuard)多任务上匹配甚至超越归因方法
  • 异构过滤下归因方法性能暴跌(如LESS从0.704降至0.515)
  • 评估设计选择(Gumbel温度、参考集组合)对结果影响巨大

亮点与洞察

  • 首个带公开排行榜的LLM数据归因统一基准,含完整评估管线和预训练检查点
  • 反事实事实归因和异构毒性过滤揭示了先前评估的系统偏差
  • "高成本归因方法 vs 低成本基线"的性价比分析具有重要实践意义

局限与展望

  • 评估仅限1B-8B模型,更大规模上结论可能不同
  • 短训练代理可能无法反映长期训练效果
  • 微调评估仅考虑单任务设定,多任务场景待探索

相关工作与启发

  • vs TRAK/LDS: DATE-LM用应用驱动评估替代昂贵的LOO评估,更贴近实际但评估角度不同
  • vs LESS: LESS在基准上表现中等偏上而非全面最优,说明需要更多元的评估视角
  • vs Quanda: 面向通用ML的框架,DATE-LM专门面向LLM并提供检查点降低门槛

评分

  • 新颖性: ⭐⭐⭐⭐ 首个综合LLM数据归因基准,反事实设定和异构过滤有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 8种方法、3大任务、多模型规模,严谨全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰动机充分
  • 价值: ⭐⭐⭐⭐ 提供急需的标准化评估工具和重要实验洞察

相关论文