Evaluating Language Models as Synthetic Data Generators¶
会议: ACL 2025
arXiv: 2412.03679
代码: https://github.com/neulab/data-agora
领域: 文本生成
关键词: 合成数据, 数据生成, 基准测试, LLM评估, 训练数据质量
一句话总结¶
提出 AgoraBench 基准,系统评估 6 个 LLM 在 3 个领域×3 种数据生成方式下的数据生成能力,通过训练 99 个学生模型发现:LLM 的数据生成能力与问题求解能力不直接相关,GPT-4o 在实例生成上最强而 Claude-3.5-Sonnet 在质量增强上最强。
研究背景与动机¶
- 领域现状:合成数据已广泛用于 LLM 后训练。Self-Instruct、Alpaca、WizardLM 等方法各自展示了不同数据生成策略的效果,但实验设置不统一——使用不同的生成模型、数据量、基础模型和评估基准。
- 现有痛点:缺乏控制变量的对比研究——无法判断学生模型的提升到底来自数据生成方法还是生成模型本身。各 API 提供商声称自己的模型适合生成训练数据,但缺乏系统验证。
- 核心矛盾:"优秀的问题解决者一定是优秀的数据生成者"这一直觉假设是否成立?如果不成立,什么因素决定了数据生成质量?
- 本文要解决什么? 在统一设置下系统比较不同 LLM 的数据生成能力,揭示影响数据质量的关键因素。
- 切入角度:固定所有变量(种子数据、提示模板、数据量、学生模型、评估基准),仅变化数据生成器,用标准化指标 PGR 衡量生成数据的训练效果。
- 核心idea一句话:首个标准化 LLM 数据生成能力基准测试,揭示数据生成能力≠问题求解能力。
方法详解¶
整体框架¶
AgoraBench 覆盖 3 个领域(数学/代码/指令遵循)× 3 种数据生成方式(实例生成/响应生成/质量增强)= 9 个设置。每个设置中,6 个 LLM 各生成 10K 训练样本,用 Llama-3.1-8B 作为学生模型训练并在固定基准上评估。
关键设计¶
- Performance Gap Recovered (PGR) 指标:
- 做什么:衡量学生模型相对于参考模型的训练效果
- 核心思路:\(\text{PGR}(G,B) = \frac{\text{score}_B(S_{D_G}) - \text{score}_B(S_\emptyset)}{\text{score}_B(S_{ref}) - \text{score}_B(S_\emptyset)} \times 100\),其中 \(S_\emptyset\) 为预训练模型(Llama-3.1-8B),\(S_{ref}\) 为参考模型(Llama-3.1-8B-Instruct)
-
设计动机:PGR=50% 意味着仅用 10K 合成数据就恢复了 Meta 用 10M+ 人工数据训练的一半效果。PGR 比内在指标(如响应质量评分)更直接反映数据的实际训练价值
-
三种数据生成方式:
- 实例生成(Instance Generation): 从少量种子数据扩展生成新的指令-响应对——Self-Instruct 方式
- 响应生成(Response Generation): 给定指令集,生成对应的响应——最常见的蒸馏方式
- 质量增强(Quality Enhancement): 给定已有的低质量实例,改进指令和/或响应——WizardLM 方式
-
设计动机:覆盖实际场景中最常用的三种合成数据策略
-
内在质量特征分析:
- 做什么:研究哪些内在数据质量特征能预测 PGR
- 核心思路:测量多个内在指标(响应质量、指令难度、困惑度、多样性等),用 PCA 分析与 PGR 的关系
- 关键发现:top-5 主成分能解释 93.4% 的 PGR 方差——说明数据质量是多维的,单一指标不够
损失函数 / 训练策略¶
- 学生模型用标准 SFT 训练,仅在响应 token 上计算损失
- 不做数据过滤或增强,直接用原始生成数据——评估"裸"数据生成能力
- 总计生成 126 万训练样本,训练 99 个学生模型
实验关键数据¶
主实验(PGR 平均值)¶
| 数据生成器 | API成本(入/出) | 问题求解 | 数据生成 PGR |
|---|---|---|---|
| GPT-4o | \(2.5/\)10 | 80.9 | 29.5% |
| Claude-3.5-Sonnet | \(3/\)15 | 80.5 | 23.6% |
| GPT-4o-mini | \(0.15/\)0.6 | 75.4 | 19.2% |
| Llama-3.1-8B | $0.055 | 50.2 | 15.9% |
| Llama-3.1-70B | \(0.35/\)0.4 | 69.6 | 14.1% |
| Llama-3.1-405B | $1.79 | 75.0 | 11.3% |
按方法的表现差异¶
| 方法 | 最佳生成器 | PGR | 第二名 | PGR |
|---|---|---|---|---|
| 实例生成 | GPT-4o | 46.8% | Claude | 24.1% |
| 响应生成 | GPT-4o | 35.2% | Claude | 33.0% |
| 质量增强 | Claude-3.5-Sonnet | 17.9% | GPT-4o | 6.7% |
关键发现¶
- 数据生成能力 ≠ 问题求解能力:Llama-3.1-8B(问题求解最弱)在代码实例生成上 PGR=55.7%,超过 Claude-3.5-Sonnet 的 23.4%
- GPT-4o 在实例生成上遥遥领先(+46.8%),但在质量增强上表现平庸(+6.7%)
- Claude-3.5-Sonnet 是质量增强的最佳选择,但实例生成不如 GPT-4o
- 内在质量指标的 top-5 主成分可解释 93.4% 的 PGR 方差——说明需要多维度评估数据质量
- 输出格式(Markdown vs 纯文本 vs JSON)对 PGR 有显著影响——不同任务偏好不同格式
- 性价比:Llama-3.1-8B 的 PGR(15.9%)在成本仅为 GPT-4o 的 1/50 情况下接近 Llama-405B(11.3%)
亮点与洞察¶
- "好的解题者不一定是好的出题者"是核心洞察——这打破了常见假设,对实践者选择数据生成模型有直接指导价值。
- PGR 指标设计优雅——以 Llama-3.1-8B-Instruct 的完整后训练作为 100% 参考,10K 数据能恢复多少比例,直觉清晰。
- 126万样本+99个学生模型的实验规模保证了结论的可靠性。
- 内在质量分析揭示了数据质量是多维概念——不能只看"响应是否正确",还要考虑难度、多样性、困惑度等。
局限性 / 可改进方向¶
- 仅使用 Llama-3.1-8B 作为学生模型,不同规模/架构的学生模型可能有不同偏好
- SFT 是唯一的训练方式,DPO/RLHF 等训练方式下结论可能不同
- 固定 10K 数据量,规模效应未探索
- 未考虑多数据源混合训练的场景
- PGR 高度依赖参考模型的选择
相关工作与启发¶
- vs Self-Instruct/Alpaca: 它们验证了特定数据生成方法的有效性,但本文首次在统一设置下对比不同生成器
- vs Xu et al. (2024c): 同期工作仅考察响应生成,本文覆盖三种数据生成方式并分析内在质量
- vs DataComp/HELM: 类似的标准化评测思路但应用于数据生成而非模型能力
- 对实际数据生产有重要指导意义——不同场景选择不同生成器
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统化的 LLM 数据生成能力基准,PGR 指标设计好
- 实验充分度: ⭐⭐⭐⭐⭐ 126万样本+99个模型+多维分析,规模充分
- 写作质量: ⭐⭐⭐⭐⭐ 图表清晰,发现呈现有条理,分析深入
- 价值: ⭐⭐⭐⭐⭐ 对合成数据实践有直接指导价值,发现反直觉但可验证