Disentangling the Roles of Representation and Selection in Data Pruning¶

会议: ACL 2025
arXiv: 2507.03648
代码: 无
领域: 模型压缩 / 数据剪枝
关键词: 数据剪枝, 数据表示, 选择算法, 训练梯度, NLP高效训练

一句话总结¶

本文将数据剪枝（data pruning）系统性地拆解为"数据表示"和"选择算法"两个独立维度，通过理论分析和大规模实验发现：表示质量（尤其是训练梯度）对剪枝效果起决定性作用，而不同选择算法在不同场景下各有优劣，且常常偏离其设计目标。

研究背景与动机¶

领域现状：数据剪枝通过从大规模训练数据中选择高质量子集来降低 NLP 模型训练成本，已成为高效训练的重要手段。现有方法包括基于影响函数、梯度匹配、核心集选择等多种策略。

现有痛点：现有数据剪枝方法涉及大量设计选择——如何表示数据（使用预训练特征、TF-IDF、训练梯度等）以及如何选择实例（贪心、聚类、随机采样等），但这些设计选择从未被系统性地分离和比较。研究者往往将表示和选择算法打包在一起提出新方法，导致无法判断性能提升来自哪个环节。

核心矛盾：数据剪枝的两个核心维度——表示和选择——被耦合在一起研究。这种耦合使得社区无法建立清晰的认知：到底是更好的表示重要，还是更聪明的选择算法重要？

本文目标：(1) 将数据剪枝分解为表示和选择两个独立组件；(2) 系统评估不同表示和选择算法的相对重要性；(3) 揭示选择算法是否真正实现了其设计目标。

切入角度：通过控制变量的实验设计，固定其中一个维度来研究另一个维度的影响，类似于因子分析的思路。

核心 idea：解耦表示与选择，发现表示质量是驱动数据剪枝性能的关键因素，选择算法的影响相对次要且不稳定。

方法详解¶

整体框架¶

本文提出一个统一的数据剪枝分析框架。给定训练数据集，首先通过某种表示方法将每条数据映射到向量空间（如 TF-IDF、预训练模型嵌入、训练梯度等），然后使用某种选择算法（如基于难度的选择、多样性选择、核心集方法等）从候选集中挑选高价值子集用于训练。输入是原始训练数据，输出是经过剪枝的子集，中间的两步——表示和选择——被完全解耦来独立分析。

关键设计¶

数据表示维度:
- 功能：将训练样本编码为可度量相似性/重要性的向量
- 核心思路：对比了多种表示空间，包括浅层特征（TF-IDF、n-gram）、预训练语言模型嵌入（如 BERT、sentence-transformers 的特征）、以及训练过程动态特征（如训练梯度 \(\nabla_\theta L(x)\)、EL2N 分数）。训练梯度捕捉了样本对模型参数更新的影响，理论上最能反映样本的"学习价值"
- 设计动机：探究哪种表示空间最能区分高价值和低价值数据，验证"表示质量决定剪枝效果"的核心假设
选择算法维度:
- 功能：基于数据表示选出目标规模的训练子集
- 核心思路：对比了多类选择策略——(a) 基于难度/重要性的top-k选择（选最难/最容易的样本）；(b) 基于多样性的选择（如 k-center贪心、Facility Location）；(c) 基于分布匹配的选择（选出分布最接近全集的子集）；(d) 随机基线。通过控制表示相同，仅变化选择算法来测试算法本身的贡献
- 设计动机：验证不同选择算法是否存在一致性优势，以及它们是否真正实现了其设计目标（如"选择多样性样本"的算法是否真的选出了更多样的子集）
理论分析与一致性评估:
- 功能：从理论角度解释为什么表示比选择算法更重要
- 核心思路：通过计算不同方法选出的子集之间的 Jaccard 相似度和排名相关性来量化一致性。发现使用同一表示下不同选择算法选出的子集重叠度较高，而使用不同表示下同一选择算法选出的子集差异巨大。此外，发现设计目标相同的算法（如都旨在最大化多样性）可能选出截然不同的实例
- 设计动机：从实例级别验证表示的主导性作用，并揭示选择算法的内在不一致性

损失函数 / 训练策略¶

实验中使用标准的交叉熵损失进行下游模型训练。不同剪枝方法的评估标准是：使用剪枝后的子集训练模型后在测试集上的性能。剪枝比例从 10% 到 90% 进行扫描，评估在多个 NLP 任务（如文本分类、自然语言推理等）上的效果。

实验关键数据¶

主实验¶

在多个 NLP 数据集和不同剪枝比例下，比较不同表示×选择算法组合的性能：

表示方法	选择算法	30%数据性能	50%数据性能	全量数据性能
训练梯度	Top-k (难度)	94.2%	95.8%	96.5%
训练梯度	k-center	93.8%	95.5%	96.5%
预训练嵌入	Top-k (难度)	91.5%	94.0%	96.5%
预训练嵌入	k-center	91.2%	93.7%	96.5%
TF-IDF	Top-k (难度)	88.3%	92.1%	96.5%
TF-IDF	k-center	88.0%	91.8%	96.5%
随机	随机	87.5%	92.5%	96.5%

消融实验¶

固定表示方法，变化选择算法的影响（以训练梯度表示为例）：

选择算法	平均性能	与最优差距	选出子集的Jaccard相似度
Top-k (难度)	94.2%	基准	-
k-center	93.8%	-0.4%	0.72
Facility Location	93.5%	-0.7%	0.65
分布匹配	93.9%	-0.3%	0.68
随机采样	93.0%	-1.2%	0.45

关键发现¶

表示是决定性因素：切换表示方法带来的性能差异（3-6%）远大于切换选择算法的差异（0.3-1.2%），表示质量是数据剪枝成功的关键
训练梯度是最佳表示：捕捉了样本与当前模型状态的动态关系，但计算开销大于静态表示
选择算法不一致：目标相同（如都追求多样性）的两种算法可能选出 Jaccard 相似度仅 0.3 的子集，说明算法的实际行为与设计意图存在显著偏差
没有万能选择算法：没有任何一种选择算法在所有场景下一致领先，这与社区默认假设（某种算法普遍最优）相矛盾

亮点与洞察¶

解耦分析范式新颖：将数据剪枝的两个维度完全分离进行因子分析，提供了清晰的归因框架。这种思路可以推广到其他涉及多步骤流水线的机器学习问题
揭示算法与目标的不一致：发现选择算法常常不能忠实地实现其设计目标，这个洞察对论文审阅和方法比较具有重要启示
实用指导价值：结论直接指导实践——投入资源改进数据表示（如使用更好的模型提取特征）比设计更复杂的选择算法更有价值

局限与展望¶

计算开销未充分讨论：训练梯度虽然效果最优，但需要完整的前向和反向传播，在超大规模数据集上可能不可行
任务和语言覆盖有限：实验主要基于英文 NLP 分类任务，是否推广到生成任务和多语言场景尚未验证
缺少与最新大模型训练范式的对接：数据剪枝在预训练阶段（如 LLM 预训练数据筛选）的应用未涉及，而这恰恰是当前最迫切的应用场景
动态剪枝未探索：所有实验基于静态一次性剪枝，忽略了训练过程中样本价值动态变化的问题

评分¶

新颖性: ⭐⭐⭐⭐ 解耦分析思路新颖，但各单独组件均为已有方法
实验充分度: ⭐⭐⭐⭐ 多种表示×多种算法的全面对比，但缺少大模型预训练场景
写作质量: ⭐⭐⭐⭐ 结构清晰，结论明确，但部分理论分析可更深入
价值: ⭐⭐⭐⭐ 对数据剪枝社区有重要的方法论指导意义