Evaluating Language Models as Synthetic Data Generators¶

会议: ACL 2025
arXiv: 2412.03679
代码: https://github.com/neulab/data-agora
领域: 文本生成
关键词: 合成数据, 数据生成, 基准测试, LLM评估, 训练数据质量

一句话总结¶

提出 AgoraBench 基准，系统评估 6 个 LLM 在 3 个领域×3 种数据生成方式下的数据生成能力，通过训练 99 个学生模型发现：LLM 的数据生成能力与问题求解能力不直接相关，GPT-4o 在实例生成上最强而 Claude-3.5-Sonnet 在质量增强上最强。

领域现状：合成数据已广泛用于 LLM 后训练。Self-Instruct、Alpaca、WizardLM 等方法各自展示了不同数据生成策略的效果，但实验设置不统一——使用不同的生成模型、数据量、基础模型和评估基准。
现有痛点：缺乏控制变量的对比研究——无法判断学生模型的提升到底来自数据生成方法还是生成模型本身。各 API 提供商声称自己的模型适合生成训练数据，但缺乏系统验证。
核心矛盾："优秀的问题解决者一定是优秀的数据生成者"这一直觉假设是否成立？如果不成立，什么因素决定了数据生成质量？
本文要解决什么？ 在统一设置下系统比较不同 LLM 的数据生成能力，揭示影响数据质量的关键因素。
切入角度：固定所有变量（种子数据、提示模板、数据量、学生模型、评估基准），仅变化数据生成器，用标准化指标 PGR 衡量生成数据的训练效果。
核心idea一句话：首个标准化 LLM 数据生成能力基准测试，揭示数据生成能力≠问题求解能力。

AgoraBench 覆盖 3 个领域（数学/代码/指令遵循）× 3 种数据生成方式（实例生成/响应生成/质量增强）= 9 个设置。每个设置中，6 个 LLM 各生成 10K 训练样本，用 Llama-3.1-8B 作为学生模型训练并在固定基准上评估。

Performance Gap Recovered (PGR) 指标:
做什么：衡量学生模型相对于参考模型的训练效果
核心思路：$\text{PGR}(G,B) = \frac{\text{score}_B(S_{D_G}) - \text{score}_B(S_\emptyset)}{\text{score}_B(S_{ref}) - \text{score}_B(S_\emptyset)} \times 100$，其中 $S_\emptyset$ 为预训练模型（Llama-3.1-8B），$S_{ref}$ 为参考模型（Llama-3.1-8B-Instruct）
设计动机：PGR=50% 意味着仅用 10K 合成数据就恢复了 Meta 用 10M+ 人工数据训练的一半效果。PGR 比内在指标（如响应质量评分）更直接反映数据的实际训练价值
三种数据生成方式:
实例生成（Instance Generation）: 从少量种子数据扩展生成新的指令-响应对——Self-Instruct 方式
响应生成（Response Generation）: 给定指令集，生成对应的响应——最常见的蒸馏方式
质量增强（Quality Enhancement）: 给定已有的低质量实例，改进指令和/或响应——WizardLM 方式
设计动机：覆盖实际场景中最常用的三种合成数据策略
内在质量特征分析:
做什么：研究哪些内在数据质量特征能预测 PGR
核心思路：测量多个内在指标（响应质量、指令难度、困惑度、多样性等），用 PCA 分析与 PGR 的关系
关键发现：top-5 主成分能解释 93.4% 的 PGR 方差——说明数据质量是多维的，单一指标不够

数据生成器	API成本(入/出)	问题求解	数据生成 PGR
GPT-4o	$2.5/$10	80.9	29.5%
Claude-3.5-Sonnet	$3/$15	80.5	23.6%
GPT-4o-mini	$0.15/$0.6	75.4	19.2%
Llama-3.1-8B	$0.055	50.2	15.9%
Llama-3.1-70B	$0.35/$0.4	69.6	14.1%
Llama-3.1-405B	$1.79	75.0	11.3%

方法	最佳生成器	PGR	第二名	PGR
实例生成	GPT-4o	46.8%	Claude	24.1%
响应生成	GPT-4o	35.2%	Claude	33.0%
质量增强	Claude-3.5-Sonnet	17.9%	GPT-4o	6.7%

数据生成能力 ≠ 问题求解能力：Llama-3.1-8B（问题求解最弱）在代码实例生成上 PGR=55.7%，超过 Claude-3.5-Sonnet 的 23.4%
GPT-4o 在实例生成上遥遥领先（+46.8%），但在质量增强上表现平庸（+6.7%）
Claude-3.5-Sonnet 是质量增强的最佳选择，但实例生成不如 GPT-4o
内在质量指标的 top-5 主成分可解释 93.4% 的 PGR 方差——说明需要多维度评估数据质量
输出格式（Markdown vs 纯文本 vs JSON）对 PGR 有显著影响——不同任务偏好不同格式
性价比：Llama-3.1-8B 的 PGR（15.9%）在成本仅为 GPT-4o 的 1/50 情况下接近 Llama-405B（11.3%）

数据生成器	API成本(入/出)	问题求解	数据生成 PGR
GPT-4o	\(2.5/\)10	80.9	29.5%
Claude-3.5-Sonnet	\(3/\)15	80.5	23.6%
GPT-4o-mini	\(0.15/\)0.6	75.4	19.2%
Llama-3.1-8B	$0.055	50.2	15.9%
Llama-3.1-70B	\(0.35/\)0.4	69.6	14.1%
Llama-3.1-405B	$1.79	75.0	11.3%