跳转至

A Survey on Efficient Large Language Model Training: From Data-centric Perspectives

会议: ACL 2025
arXiv: 2510.25817
代码: https://github.com/luo-junyu/Awesome-Data-Efficient-LLM
领域: LLM效率
关键词: data-efficient training, survey, data selection, synthetic data, self-evolving, post-training

一句话总结

首个系统性的数据高效 LLM 后训练综述,提出"数据价值飞轮"分类法,将方法分为五大类(数据选择、质量增强、合成生成、蒸馏压缩、自演进生态),覆盖 100+ 篇代表性工作并展望未来方向。

研究背景与动机

  1. 领域现状:LLM 后训练(SFT、RLHF 等)是释放模型能力的关键阶段。DeepSeek-R1 通过强化学习实现数据高效后训练,进一步验证了数据效率的重要性。
  2. 现有痛点:(1) 人工标注高质量数据成本飞速增长。(2) 数据规模线性增长带来的回报递减。(3) 静态数据集无法适应不断演进的真实知识。(4) 研究碎片化——各方法分散在不同子领域,缺乏统一视角。
  3. 核心矛盾:传统后训练范式中性能与数据量的线性依赖,根源在于数据利用效率低下。
  4. 本文要解决什么? 首次从数据中心视角系统综述数据高效 LLM 后训练方法。
  5. 切入角度:提出"数据价值飞轮"概念——数据选择 → 质量增强 → 合成生成 → 蒸馏压缩 → 自演进生态,五个环节形成正反馈循环。

方法详解

整体框架(五大类分类法)

关键设计

  1. 数据选择 (Data Selection):
  2. 静态过滤: AlpaGasus(0.7倍数据同等效果)、MoDS(多维指标+密度峰聚类)、信息论方法(熵+逆词频)。
  3. 动态选择: 不确定性驱动(预测熵优先高不确定性任务)、优化驱动(Thompson采样、LESS梯度相似性搜索)。
  4. Agent策略: 多模型投票(CLUES)、对抗增强(Data Advisor 红队过滤)。
  5. 标注效率: Human-AI 协作(LLMaAA、CoAnnotating)、自动生成(Self-Instruct)。

  6. 数据质量增强 (Data Quality Enhancement):

  7. 语义重写: CoachLM(指令精炼减少歧义)、LLM2LLM(迭代改进低置信样本)。
  8. 毒性控制: ToxiGen(对抗测试)、反事实数据增强。
  9. 分布稳定: 合成过采样、Multi-News+(标注纠错)、RobustFT(多专家协作噪声检测)。

  10. 合成数据生成 (Synthetic Data Generation):

  11. 指令驱动: SynPO(偏好对生成,+12% ROUGE-L)、Magpie(无模板指令生成,98% AlpacaEval)。
  12. 知识引导: 逆瓶颈理论(数据多样性→泛化)、结构化知识注入。
  13. 对抗生成: 制造困难样本压力测试模型。

  14. 数据蒸馏与压缩 (Distillation & Compression):

  15. 模型蒸馏 + 数据蒸馏 + 联合压缩。

  16. 自演进数据生态 (Self-Evolving Data Ecosystem):

  17. 自迭代优化(用当前模型生成数据)、动态评估反馈、LLM-as-a-Judge。

实验关键数据

主要对比维度

类别 数据依赖 计算成本 模型依赖 数据价值挖掘
数据选择 ++ + + +++
质量增强 ++ ++ ++ ++
合成生成 + +++ +++ +
蒸馏压缩 + + +++ +++
自演进 + +++ +++ +++

关键发现

  • 五类方法互补:选择过滤质量,增强提升效用,生成扩展覆盖,蒸馏浓缩知识,自演进使持续改进。
  • 合成生成和自演进减少了对人工数据的依赖,但增加了计算和模型资源需求。
  • 数据选择的 ROI 最高:投入最少的计算和模型资源就能获得最高的数据价值。
  • 未来方向:元学习数据选择、因果推断样本分析、效率感知优化、统一框架整合五类方法。

亮点与洞察

  • "数据价值飞轮"的概念:将碎片化的方法统一为闭环生态系统的视角,比简单罗列更有洞察。
  • 数据效率是核心竞争力:DeepSeek-R1 的成功证明了数据效率方法可以产生革命性影响。
  • 五类方法的互补关系地图:为研究者提供了清晰的方法选择指南。

局限性 / 可改进方向

  • 以后训练为焦点,预训练阶段的数据效率方法覆盖不足。
  • 缺乏不同方法组合使用时的交互分析。
  • 定量对比不同方法的实验有限(综述性质限制)。

相关工作与启发

  • vs 现有综述 (数据选择/合成数据等):现有综述各聚焦单一方面;本文首次从数据效率的统一视角覆盖全部五个维度。

评分

  • 新颖性: ⭐⭐⭐ 综述类论文,分类法有新意但方法本身非原创
  • 实验充分度: ⭐⭐ 综述无实验,但覆盖面广
  • 写作质量: ⭐⭐⭐⭐ 分类法清晰,覆盖全面
  • 价值: ⭐⭐⭐⭐ 为数据高效后训练研究提供了路线图