A Survey on Efficient Large Language Model Training: From Data-centric Perspectives¶

会议: ACL 2025
arXiv: 2510.25817
代码: https://github.com/luo-junyu/Awesome-Data-Efficient-LLM
领域: LLM效率
关键词: data-efficient training, survey, data selection, synthetic data, self-evolving, post-training

一句话总结¶

首个系统性的数据高效 LLM 后训练综述，提出"数据价值飞轮"分类法，将方法分为五大类（数据选择、质量增强、合成生成、蒸馏压缩、自演进生态），覆盖 100+ 篇代表性工作并展望未来方向。

研究背景与动机¶

领域现状：LLM 后训练（SFT、RLHF 等）是释放模型能力的关键阶段。DeepSeek-R1 通过强化学习实现数据高效后训练，进一步验证了数据效率的重要性。
现有痛点：(1) 人工标注高质量数据成本飞速增长。(2) 数据规模线性增长带来的回报递减。(3) 静态数据集无法适应不断演进的真实知识。(4) 研究碎片化——各方法分散在不同子领域，缺乏统一视角。
核心矛盾：传统后训练范式中性能与数据量的线性依赖，根源在于数据利用效率低下。
本文要解决什么？ 首次从数据中心视角系统综述数据高效 LLM 后训练方法。
切入角度：提出"数据价值飞轮"概念——数据选择 → 质量增强 → 合成生成 → 蒸馏压缩 → 自演进生态，五个环节形成正反馈循环。

方法详解¶

整体框架（五大类分类法）¶

关键设计¶

数据选择 (Data Selection):
静态过滤: AlpaGasus（0.7倍数据同等效果）、MoDS（多维指标+密度峰聚类）、信息论方法（熵+逆词频）。
动态选择: 不确定性驱动（预测熵优先高不确定性任务）、优化驱动（Thompson采样、LESS梯度相似性搜索）。
Agent策略: 多模型投票（CLUES）、对抗增强（Data Advisor 红队过滤）。
标注效率: Human-AI 协作（LLMaAA、CoAnnotating）、自动生成（Self-Instruct）。
数据质量增强 (Data Quality Enhancement):
语义重写: CoachLM（指令精炼减少歧义）、LLM2LLM（迭代改进低置信样本）。
毒性控制: ToxiGen（对抗测试）、反事实数据增强。
分布稳定: 合成过采样、Multi-News+（标注纠错）、RobustFT（多专家协作噪声检测）。
合成数据生成 (Synthetic Data Generation):
指令驱动: SynPO（偏好对生成，+12% ROUGE-L）、Magpie（无模板指令生成，98% AlpacaEval）。
知识引导: 逆瓶颈理论（数据多样性→泛化）、结构化知识注入。
对抗生成: 制造困难样本压力测试模型。
数据蒸馏与压缩 (Distillation & Compression):
模型蒸馏 + 数据蒸馏 + 联合压缩。
自演进数据生态 (Self-Evolving Data Ecosystem):
自迭代优化（用当前模型生成数据）、动态评估反馈、LLM-as-a-Judge。

实验关键数据¶

主要对比维度¶

类别	数据依赖	计算成本	模型依赖	数据价值挖掘
数据选择	++	+	+	+++
质量增强	++	++	++	++
合成生成	+	+++	+++	+
蒸馏压缩	+	+	+++	+++
自演进	+	+++	+++	+++

关键发现¶

五类方法互补：选择过滤质量，增强提升效用，生成扩展覆盖，蒸馏浓缩知识，自演进使持续改进。
合成生成和自演进减少了对人工数据的依赖，但增加了计算和模型资源需求。
数据选择的 ROI 最高：投入最少的计算和模型资源就能获得最高的数据价值。
未来方向：元学习数据选择、因果推断样本分析、效率感知优化、统一框架整合五类方法。

亮点与洞察¶

"数据价值飞轮"的概念：将碎片化的方法统一为闭环生态系统的视角，比简单罗列更有洞察。
数据效率是核心竞争力：DeepSeek-R1 的成功证明了数据效率方法可以产生革命性影响。
五类方法的互补关系地图：为研究者提供了清晰的方法选择指南。

局限性 / 可改进方向¶

以后训练为焦点，预训练阶段的数据效率方法覆盖不足。
缺乏不同方法组合使用时的交互分析。
定量对比不同方法的实验有限（综述性质限制）。

评分¶

新颖性: ⭐⭐⭐ 综述类论文，分类法有新意但方法本身非原创
实验充分度: ⭐⭐ 综述无实验，但覆盖面广
写作质量: ⭐⭐⭐⭐ 分类法清晰，覆盖全面
价值: ⭐⭐⭐⭐ 为数据高效后训练研究提供了路线图