DATE-LM: Benchmarking Data Attribution Evaluation for Large Language Models¶

会议: NeurIPS 2025
arXiv: 2507.09424
代码: GitHub
领域: 社会计算 / 数据归因
关键词: 数据归因, benchmark, LLM, 数据选择, 事实溯源

一句话总结¶

DATE-LM构建了首个面向LLM的统一数据归因评估基准，通过训练数据选择、毒性过滤和事实归因三大应用驱动任务系统评估多种归因方法，发现无单一方法全面占优且简单基线在某些场景可媲美归因方法。

研究背景与动机¶

领域现状 数据归因方法量化训练数据对模型输出的影响，在数据集策展、模型可解释性和数据定价等方面日益重要，已有LESS、MATES等针对LLM的方法涌现。

现有痛点 LLM训练栈复杂导致方法间难以公平比较；基于重训练的评估协议计算成本巨大；现有工作缺乏全面的应用驱动评估，且常忽略非归因基线的对比。

核心矛盾 数据归因方法在LLM规模下的真实效用不明确——它们在不同应用中的性价比如何？是否值得投入高计算成本？

本文目标 提供统一、可扩展的基准平台，使研究者在多种LLM架构和任务上进行公平、可复现的数据归因方法对比。

切入角度 设计模块化三阶段评估管线（归因评分→子集选择→任务评估），配合预训练检查点和公开排行榜降低评估门槛。

核心 idea 通过统一管线和应用驱动的任务设计，实现首次大规模、系统性的LLM数据归因方法对比。

方法详解¶

整体框架¶

DATE-LM包含三阶段统一管线：(1) 归因评分——使用方法 \(\tau\) 对训练集 \(\mathcal{D}\) 中每个样本相对参考集 \(\mathcal{D}_{ref}\) 打分，得到 \(\mathcal{S} = \tau(\mathcal{D}, \mathcal{D}_{ref}, \theta)\)；(2) 子集选择——基于 \(\mathcal{S}\) 通过top-k或概率采样选取子集 \(\mathcal{D}_s\)；(3) 任务评估——在 \(\mathcal{D}_s\) 上运行下游任务并计算指标。管线对 \(\tau\) 不可知，新方法只需提供评分即可接入。

关键设计¶

训练数据选择任务:
- 功能：评估归因方法选出高质量训练数据以提升LLM能力
- 核心思路：预训练设定使用FineWeb+LAMBADA，通过Gumbel-top-k采样保证多样性，在SciQ/ARC/BoolQ等7个任务上评估；微调设定使用Tulu 3+MMLU/GSM8K/BBH。采用短训练（200步WSD调度）代替完整预训练降低成本
- 设计动机：统一使用Gumbel-top-k隔离归因评分函数本身的效果，避免不同选择策略（聚类、多臂赌博等）混淆比较
毒性/偏见过滤任务:
- 功能：评估归因方法从训练集中检测有害样本的能力
- 核心思路：构造 \(\mathcal{D} = \mathcal{D}_{benign} \cup \mathcal{D}_{unsafe}\)（10K良性+<100有害），以AUPRC评估。创新引入异构过滤——在良性数据中加入安全对齐的"干扰"样本（如拒绝有害提问的回答），使得有害数据更难区分
- 设计动机：同构过滤过于简单，异构设定更贴近实际安全对齐场景，是更严格但更有意义的测试
事实归因任务:
- 功能：追溯LLM输出事实到训练中的支撑证据
- 核心思路：基于ROME数据集，使用Recall@50和MRR评估。关键引入反事实设定——用相关但错误的实体（如Microsoft→Google）替换支撑证据中的实体，打破词汇重叠，迫使方法捕捉语义贡献
- 设计动机：先前基准严重偏向词汇重叠检测，BM25轻易得到高分，反事实设定使评估更公平

实验关键数据¶

主实验——预训练数据选择（1B模型, 30K步）¶

方法	7任务平均	FLOPS
Random	49.83	1×
BM25	50.26	1×
Grad Sim	50.26	11×
MATES	50.13	1.13×
EDU	50.63	1.07×

毒性过滤（平均AUPRC）¶

方法	同构	异构
WildGuard（基线）	0.827	0.817
LESS	0.704	0.515
Grad Sim	0.584	0.466

消融实验——Gumbel温度敏感性¶

温度	效果
过低（0.1）	多样性不足，部分方法低于Random
适中（0.5-1.0）	多数方法达最优
过高（2.0）	随机性过强，退化为均匀采样

关键发现¶

无单一归因方法在所有任务上占优
简单非归因基线（EDU、WildGuard）多任务上匹配甚至超越归因方法
异构过滤下归因方法性能暴跌（如LESS从0.704降至0.515）
评估设计选择（Gumbel温度、参考集组合）对结果影响巨大

亮点与洞察¶

首个带公开排行榜的LLM数据归因统一基准，含完整评估管线和预训练检查点
反事实事实归因和异构毒性过滤揭示了先前评估的系统偏差
"高成本归因方法 vs 低成本基线"的性价比分析具有重要实践意义

局限与展望¶

评估仅限1B-8B模型，更大规模上结论可能不同
短训练代理可能无法反映长期训练效果
微调评估仅考虑单任务设定，多任务场景待探索

评分¶

新颖性: ⭐⭐⭐⭐ 首个综合LLM数据归因基准，反事实设定和异构过滤有创新
实验充分度: ⭐⭐⭐⭐⭐ 8种方法、3大任务、多模型规模，严谨全面
写作质量: ⭐⭐⭐⭐ 结构清晰动机充分
价值: ⭐⭐⭐⭐ 提供急需的标准化评估工具和重要实验洞察