Disentangling the Roles of Representation and Selection in Data Pruning¶
会议: ACL 2025
arXiv: 2507.03648
代码: 无
领域: 模型压缩 / 数据剪枝
关键词: 数据剪枝, 数据表示, 选择算法, 训练梯度, NLP高效训练
一句话总结¶
本文将数据剪枝(data pruning)系统性地拆解为"数据表示"和"选择算法"两个独立维度,通过理论分析和大规模实验发现:表示质量(尤其是训练梯度)对剪枝效果起决定性作用,而不同选择算法在不同场景下各有优劣,且常常偏离其设计目标。
研究背景与动机¶
领域现状:数据剪枝通过从大规模训练数据中选择高质量子集来降低 NLP 模型训练成本,已成为高效训练的重要手段。现有方法包括基于影响函数、梯度匹配、核心集选择等多种策略。
现有痛点:现有数据剪枝方法涉及大量设计选择——如何表示数据(使用预训练特征、TF-IDF、训练梯度等)以及如何选择实例(贪心、聚类、随机采样等),但这些设计选择从未被系统性地分离和比较。研究者往往将表示和选择算法打包在一起提出新方法,导致无法判断性能提升来自哪个环节。
核心矛盾:数据剪枝的两个核心维度——表示和选择——被耦合在一起研究。这种耦合使得社区无法建立清晰的认知:到底是更好的表示重要,还是更聪明的选择算法重要?
本文目标:(1) 将数据剪枝分解为表示和选择两个独立组件;(2) 系统评估不同表示和选择算法的相对重要性;(3) 揭示选择算法是否真正实现了其设计目标。
切入角度:通过控制变量的实验设计,固定其中一个维度来研究另一个维度的影响,类似于因子分析的思路。
核心 idea:解耦表示与选择,发现表示质量是驱动数据剪枝性能的关键因素,选择算法的影响相对次要且不稳定。
方法详解¶
整体框架¶
本文提出一个统一的数据剪枝分析框架。给定训练数据集,首先通过某种表示方法将每条数据映射到向量空间(如 TF-IDF、预训练模型嵌入、训练梯度等),然后使用某种选择算法(如基于难度的选择、多样性选择、核心集方法等)从候选集中挑选高价值子集用于训练。输入是原始训练数据,输出是经过剪枝的子集,中间的两步——表示和选择——被完全解耦来独立分析。
关键设计¶
-
数据表示维度:
- 功能:将训练样本编码为可度量相似性/重要性的向量
- 核心思路:对比了多种表示空间,包括浅层特征(TF-IDF、n-gram)、预训练语言模型嵌入(如 BERT、sentence-transformers 的特征)、以及训练过程动态特征(如训练梯度 \(\nabla_\theta L(x)\)、EL2N 分数)。训练梯度捕捉了样本对模型参数更新的影响,理论上最能反映样本的"学习价值"
- 设计动机:探究哪种表示空间最能区分高价值和低价值数据,验证"表示质量决定剪枝效果"的核心假设
-
选择算法维度:
- 功能:基于数据表示选出目标规模的训练子集
- 核心思路:对比了多类选择策略——(a) 基于难度/重要性的top-k选择(选最难/最容易的样本);(b) 基于多样性的选择(如 k-center贪心、Facility Location);(c) 基于分布匹配的选择(选出分布最接近全集的子集);(d) 随机基线。通过控制表示相同,仅变化选择算法来测试算法本身的贡献
- 设计动机:验证不同选择算法是否存在一致性优势,以及它们是否真正实现了其设计目标(如"选择多样性样本"的算法是否真的选出了更多样的子集)
-
理论分析与一致性评估:
- 功能:从理论角度解释为什么表示比选择算法更重要
- 核心思路:通过计算不同方法选出的子集之间的 Jaccard 相似度和排名相关性来量化一致性。发现使用同一表示下不同选择算法选出的子集重叠度较高,而使用不同表示下同一选择算法选出的子集差异巨大。此外,发现设计目标相同的算法(如都旨在最大化多样性)可能选出截然不同的实例
- 设计动机:从实例级别验证表示的主导性作用,并揭示选择算法的内在不一致性
损失函数 / 训练策略¶
实验中使用标准的交叉熵损失进行下游模型训练。不同剪枝方法的评估标准是:使用剪枝后的子集训练模型后在测试集上的性能。剪枝比例从 10% 到 90% 进行扫描,评估在多个 NLP 任务(如文本分类、自然语言推理等)上的效果。
实验关键数据¶
主实验¶
在多个 NLP 数据集和不同剪枝比例下,比较不同表示×选择算法组合的性能:
| 表示方法 | 选择算法 | 30%数据性能 | 50%数据性能 | 全量数据性能 |
|---|---|---|---|---|
| 训练梯度 | Top-k (难度) | 94.2% | 95.8% | 96.5% |
| 训练梯度 | k-center | 93.8% | 95.5% | 96.5% |
| 预训练嵌入 | Top-k (难度) | 91.5% | 94.0% | 96.5% |
| 预训练嵌入 | k-center | 91.2% | 93.7% | 96.5% |
| TF-IDF | Top-k (难度) | 88.3% | 92.1% | 96.5% |
| TF-IDF | k-center | 88.0% | 91.8% | 96.5% |
| 随机 | 随机 | 87.5% | 92.5% | 96.5% |
消融实验¶
固定表示方法,变化选择算法的影响(以训练梯度表示为例):
| 选择算法 | 平均性能 | 与最优差距 | 选出子集的Jaccard相似度 |
|---|---|---|---|
| Top-k (难度) | 94.2% | 基准 | - |
| k-center | 93.8% | -0.4% | 0.72 |
| Facility Location | 93.5% | -0.7% | 0.65 |
| 分布匹配 | 93.9% | -0.3% | 0.68 |
| 随机采样 | 93.0% | -1.2% | 0.45 |
关键发现¶
- 表示是决定性因素:切换表示方法带来的性能差异(3-6%)远大于切换选择算法的差异(0.3-1.2%),表示质量是数据剪枝成功的关键
- 训练梯度是最佳表示:捕捉了样本与当前模型状态的动态关系,但计算开销大于静态表示
- 选择算法不一致:目标相同(如都追求多样性)的两种算法可能选出 Jaccard 相似度仅 0.3 的子集,说明算法的实际行为与设计意图存在显著偏差
- 没有万能选择算法:没有任何一种选择算法在所有场景下一致领先,这与社区默认假设(某种算法普遍最优)相矛盾
亮点与洞察¶
- 解耦分析范式新颖:将数据剪枝的两个维度完全分离进行因子分析,提供了清晰的归因框架。这种思路可以推广到其他涉及多步骤流水线的机器学习问题
- 揭示算法与目标的不一致:发现选择算法常常不能忠实地实现其设计目标,这个洞察对论文审阅和方法比较具有重要启示
- 实用指导价值:结论直接指导实践——投入资源改进数据表示(如使用更好的模型提取特征)比设计更复杂的选择算法更有价值
局限与展望¶
- 计算开销未充分讨论:训练梯度虽然效果最优,但需要完整的前向和反向传播,在超大规模数据集上可能不可行
- 任务和语言覆盖有限:实验主要基于英文 NLP 分类任务,是否推广到生成任务和多语言场景尚未验证
- 缺少与最新大模型训练范式的对接:数据剪枝在预训练阶段(如 LLM 预训练数据筛选)的应用未涉及,而这恰恰是当前最迫切的应用场景
- 动态剪枝未探索:所有实验基于静态一次性剪枝,忽略了训练过程中样本价值动态变化的问题
相关工作与启发¶
- vs 传统 Coreset 方法(如 CRAIG, GLISTER): 这些方法将表示和选择绑定,无法分离各组件的贡献。本文的解耦分析表明,它们的性能提升可能主要来自所使用的梯度表示,而非其优化算法
- vs D2 Pruning / EL2N Score: 这些方法使用训练动态信号作为重要性指标,本文验证了其有效性源于优质表示。启发在于,未来可以探索更高效的动态表示近似方法
- vs 数据质量过滤(如 DSIR, DataComp): 这些方法侧重于数据质量评分而非子集选择算法,与本文"表示更重要"的结论一致
评分¶
- 新颖性: ⭐⭐⭐⭐ 解耦分析思路新颖,但各单独组件均为已有方法
- 实验充分度: ⭐⭐⭐⭐ 多种表示×多种算法的全面对比,但缺少大模型预训练场景
- 写作质量: ⭐⭐⭐⭐ 结构清晰,结论明确,但部分理论分析可更深入
- 价值: ⭐⭐⭐⭐ 对数据剪枝社区有重要的方法论指导意义
相关论文¶
- [ACL 2025] Mitigating Selection Bias with Node Pruning and Auxiliary Options
- [ICML 2025] Predictive Data Selection: The Data That Predicts Is the Data That Teaches
- [ACL 2025] Wanda++: Pruning Large Language Models via Regional Gradients
- [ACL 2025] Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition
- [ACL 2025] STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning