A Survey on Efficient Large Language Model Training: From Data-centric Perspectives¶
会议: ACL 2025
arXiv: 2510.25817
代码: https://github.com/luo-junyu/Awesome-Data-Efficient-LLM
领域: LLM效率
关键词: data-efficient training, survey, data selection, synthetic data, self-evolving, post-training
一句话总结¶
首个系统性的数据高效 LLM 后训练综述,提出"数据价值飞轮"分类法,将方法分为五大类(数据选择、质量增强、合成生成、蒸馏压缩、自演进生态),覆盖 100+ 篇代表性工作并展望未来方向。
研究背景与动机¶
- 领域现状:LLM 后训练(SFT、RLHF 等)是释放模型能力的关键阶段。DeepSeek-R1 通过强化学习实现数据高效后训练,进一步验证了数据效率的重要性。
- 现有痛点:(1) 人工标注高质量数据成本飞速增长。(2) 数据规模线性增长带来的回报递减。(3) 静态数据集无法适应不断演进的真实知识。(4) 研究碎片化——各方法分散在不同子领域,缺乏统一视角。
- 核心矛盾:传统后训练范式中性能与数据量的线性依赖,根源在于数据利用效率低下。
- 本文要解决什么? 首次从数据中心视角系统综述数据高效 LLM 后训练方法。
- 切入角度:提出"数据价值飞轮"概念——数据选择 → 质量增强 → 合成生成 → 蒸馏压缩 → 自演进生态,五个环节形成正反馈循环。
方法详解¶
整体框架(五大类分类法)¶
关键设计¶
- 数据选择 (Data Selection):
- 静态过滤: AlpaGasus(0.7倍数据同等效果)、MoDS(多维指标+密度峰聚类)、信息论方法(熵+逆词频)。
- 动态选择: 不确定性驱动(预测熵优先高不确定性任务)、优化驱动(Thompson采样、LESS梯度相似性搜索)。
- Agent策略: 多模型投票(CLUES)、对抗增强(Data Advisor 红队过滤)。
-
标注效率: Human-AI 协作(LLMaAA、CoAnnotating)、自动生成(Self-Instruct)。
-
数据质量增强 (Data Quality Enhancement):
- 语义重写: CoachLM(指令精炼减少歧义)、LLM2LLM(迭代改进低置信样本)。
- 毒性控制: ToxiGen(对抗测试)、反事实数据增强。
-
分布稳定: 合成过采样、Multi-News+(标注纠错)、RobustFT(多专家协作噪声检测)。
-
合成数据生成 (Synthetic Data Generation):
- 指令驱动: SynPO(偏好对生成,+12% ROUGE-L)、Magpie(无模板指令生成,98% AlpacaEval)。
- 知识引导: 逆瓶颈理论(数据多样性→泛化)、结构化知识注入。
-
对抗生成: 制造困难样本压力测试模型。
-
数据蒸馏与压缩 (Distillation & Compression):
-
模型蒸馏 + 数据蒸馏 + 联合压缩。
-
自演进数据生态 (Self-Evolving Data Ecosystem):
- 自迭代优化(用当前模型生成数据)、动态评估反馈、LLM-as-a-Judge。
实验关键数据¶
主要对比维度¶
| 类别 | 数据依赖 | 计算成本 | 模型依赖 | 数据价值挖掘 |
|---|---|---|---|---|
| 数据选择 | ++ | + | + | +++ |
| 质量增强 | ++ | ++ | ++ | ++ |
| 合成生成 | + | +++ | +++ | + |
| 蒸馏压缩 | + | + | +++ | +++ |
| 自演进 | + | +++ | +++ | +++ |
关键发现¶
- 五类方法互补:选择过滤质量,增强提升效用,生成扩展覆盖,蒸馏浓缩知识,自演进使持续改进。
- 合成生成和自演进减少了对人工数据的依赖,但增加了计算和模型资源需求。
- 数据选择的 ROI 最高:投入最少的计算和模型资源就能获得最高的数据价值。
- 未来方向:元学习数据选择、因果推断样本分析、效率感知优化、统一框架整合五类方法。
亮点与洞察¶
- "数据价值飞轮"的概念:将碎片化的方法统一为闭环生态系统的视角,比简单罗列更有洞察。
- 数据效率是核心竞争力:DeepSeek-R1 的成功证明了数据效率方法可以产生革命性影响。
- 五类方法的互补关系地图:为研究者提供了清晰的方法选择指南。
局限性 / 可改进方向¶
- 以后训练为焦点,预训练阶段的数据效率方法覆盖不足。
- 缺乏不同方法组合使用时的交互分析。
- 定量对比不同方法的实验有限(综述性质限制)。
相关工作与启发¶
- vs 现有综述 (数据选择/合成数据等):现有综述各聚焦单一方面;本文首次从数据效率的统一视角覆盖全部五个维度。
评分¶
- 新颖性: ⭐⭐⭐ 综述类论文,分类法有新意但方法本身非原创
- 实验充分度: ⭐⭐ 综述无实验,但覆盖面广
- 写作质量: ⭐⭐⭐⭐ 分类法清晰,覆盖全面
- 价值: ⭐⭐⭐⭐ 为数据高效后训练研究提供了路线图