How to Synthesize Text Data without Model Collapse?¶

会议: ICML 2025
arXiv: 2412.14689
代码: GitHub
领域: LLM/NLP
关键词: 模型崩溃, 合成数据, token编辑, 数据分布, 半合成数据

一句话总结¶

提出 Token-level Editing (ToEdit)，通过对人类数据进行 token 级别的局部重采样（而非完全生成合成数据），在理论上证明测试误差存在有限上界，从而避免 model collapse，并在预训练、持续预训练和微调三个阶段验证了有效性。

研究背景与动机¶

随着生成式 AI 的普及，互联网上的合成数据将日益增多。未来 GPT-{n} 模型不可避免地要在合成数据与人类数据的混合集上进行训练。Model collapse 是这一背景下的核心风险——迭代地在自生成数据上训练会导致模型性能持续退化。

本文聚焦两个关键问题：

合成数据对语言模型预训练的影响是什么？ 作者发现即使是非迭代地直接混合合成数据，也会损害预训练效果（非迭代 model collapse）。

如何合成数据而不引发 model collapse？ 作者提出 token 级编辑策略，生成"半合成数据"来规避分布坍缩。

之前的理论工作（Shumailov et al., 2024; Dohmatob et al., 2024a）已证明迭代训练导致测试误差线性增长 \(E_{test} = \frac{\sigma^2 d}{T-d-1} \times n\)。Gerstgrasser et al. (2024) 证明数据累积可以打破 collapse，但缺乏实用的数据合成方案。本文的核心创新在于：不再"纯合成"，而是在人类原始数据上做受控的 token 级修改，同时提供理论保证。

方法详解¶

整体框架¶

ToEdit 的核心思路可分为三步：

用先验语言模型推断 token 概率：给定人类文本序列 \(x = (x_1, \dots, x_t)\)，使用预训练 LM（如 Llama-3-8B）计算每个 token 的条件概率 \(P(x_i | x_1, \dots, x_{i-1})\)。
识别"过于容易"的 token：如果某 token 的条件概率 \(P(x_i | \text{context}) \geq p\)（阈值 \(p\)），说明该 token 对模型来说太容易预测，信息量低，存在过度集中的风险。
重采样替换：对这些高置信度 token 进行重采样，用从先验分布中采样的新 token \(\tilde{x}_i\) 替换，其他 token 保持原样。

这一过程只需单次前向推理，不涉及自回归生成，计算效率高（单张 4090 即可完成）。

关键设计¶

Token 编辑公式¶

\[ x_i' = \begin{cases} x_i, & \text{if } P(x_i | x_1, \dots, x_{i-1}) < p \\ \tilde{x}_i, & \text{if } P(x_i | x_1, \dots, x_{i-1}) \geq p \end{cases} \]

其中 \(\tilde{x}_i\) 是根据条件概率分布重新采样的 token，\(p\) 是控制编辑程度的阈值。

直觉理解：人类文本的 token 概率呈 U 型分布——高概率（容易预测）和低概率（难以预测）的 token 最为集中。ToEdit 只替换高概率端的 token，保留了低概率端的长尾特征，从而维持分布覆盖度。

为什么不用纯合成数据？——四大发现¶

作者通过系统实验揭示了合成数据的根本缺陷：

Finding I：混入合成数据伤害预训练。在 GPT-2 (124M) 上，合成数据比例与 PPL 呈负相关——100% 合成数据的平均 PPL 从 20.99 暴增至 51.93。
Finding II：合成数据分布缺失长尾且覆盖范围收窄。用 Llama-3-8B 估计 PPL 分布，人类数据覆盖 [1, 100+]，而合成数据仅集中在 [0, 14]，只覆盖人类数据的前 25%。
Finding III：合成数据 N-gram 特征过度集中。将 uni-gram/bi-gram 哈希到 10000 个桶中，合成数据的响应集中在少量桶，缺乏人类数据的广泛覆盖。
Finding IV：数据选择无法修正分布偏移。即使用 DSIR 重要性采样从合成数据中筛选，性能仍在原始合成数据水平波动，无法对齐人类数据分布。

操作矩阵形式化¶

在理论分析框架中，token 编辑被形式化为对角矩阵 \(M_i\) 的操作:

\[ \tilde{Y}_n = M_{n-1} \hat{Y}_n + (1 - M_{n-1}) \tilde{Y}_{n-1} \]

\(M_i\) 是对角矩阵，对角元素为 0 或 1，决定哪些数据点被编辑（1）或保留（0）。这使得每次迭代只修改部分数据，而非全部替换。

损失函数 / 训练策略¶

理论保证：测试误差有限上界¶

Theorem 2：在 token 编辑设定下，经过 \(n+1\) 轮迭代编辑，测试误差满足：

\[ E_{test}(\hat{w}_{n+1}) \leq \frac{2\sigma^2 d}{T - d - 1} \]

这是一个与迭代轮数 \(n\) 无关的有限上界。相比之下，model collapse 的误差为 \(\frac{\sigma^2 d}{T-d-1} \times n\)，随 \(n\) 线性增长。

进一步，若编辑操作满足衰减条件 \(\|M_i\| = \|M_{i-1}\| \eta\)（\(\eta \in (0,1)\)），则上界可以更紧：

\[ E_{test}(\hat{w}_{n+1}) \leq \frac{\sigma^2 d}{T-d-1} + \sigma^2 \sqrt{\mathbb{E}[\text{tr}((X^\top X)^{-2})]} \cdot \frac{\sqrt{\mathbb{E}[\text{tr}(M_1)]}}{1-\eta} \]

核心逻辑：因为每轮只修改部分 token（由 \(M_i\) 控制），原始分布覆盖得以保留，噪声不会跨迭代累积。

实现细节¶

先验模型：Llama-3-8B 作为概率估计器
编辑阈值：\(p = 0.99\)（只替换条件概率 ≥ 0.99 的 token）
采样策略：top-k（\(k=8\)）
推理引擎：vLLM 快速推理，单张 4090 即可完成数据编辑
无需自回归生成：只做单次前向传播

实验关键数据¶

主实验¶

实验覆盖三个训练阶段：从头预训练、持续预训练、有监督微调。

非迭代 model collapse（从头预训练 GPT-2 124M）:

数据配比	22子域平均PPL↓	对比纯人类数据
100% Human	20.99 / 22.59	基线
25% Synthetic	22.06 / 23.91	+1.07 / +1.32
50% Synthetic	23.48 / 25.09	+2.49 / +2.50
75% Synthetic	27.60 / 28.64	+6.61 / +6.05
100% Synthetic	51.93 / 47.87	+30.94 / +25.28

持续预训练（Biomedicine 领域）:

模型	MQP	ChemProt	PubMedQA	RCT	USMLE	Avg
OLMo-1B 基线	52.59	17.2	51.40	32.70	28.90	36.63
OLMo-1B CPT	52.29	21.00	58.50	34.90	27.49	38.83
OLMo-1B + ToEdit	54.59	22.40	65.00	34.50	27.96	40.89
Llama-3-8B 基线	66.80	28.59	60.8	73.85	40.61	54.13
Llama-3-8B CPT	72.29	29.4	69.1	72.65	36.76	56.04
Llama-3-8B + ToEdit	76.39	30.2	65.3	73.30	37.23	56.48

SFT（指令微调 Llama-3-8B）:

任务	原始Avg	+ToEdit Avg	提升
Natural Instructions	69.34	69.70	+0.36
CoT	69.01	69.26	+0.25
FLANv2	70.18	70.65	+0.47
Open Assistant	69.19	69.44	+0.25
OSS-Instruct (代码)	45.76	46.13	+0.37
Evol-Instruct (代码)	46.62	46.92	+0.30

消融实验¶

配置	Avg (Biomedicine)	说明
\(p \geq 0.99\)	38.69	默认阈值，替换约27%高概率token
\(p \geq 0.999\)	38.48	更保守，替换更少token
\(p \leq 0.1\)	35.72	替换低概率token，效果差
\(p \leq 0.01\)	37.46	替换极低概率token
Top-k (k=8)	基线	默认，计算高效
Top-p	可比	动态采样范围，开销更大
Rejection Sampling	可比	多轮计算，开销最大
k=8 vs k=64	差异小	增大k收益有限

关键发现¶

合成数据比例与性能呈明确负相关：100% 合成数据的 PPL 是纯人类数据的 2.5 倍。
ToEdit 在三个训练阶段一致有效：预训练 +0.36、持续预训练平均 +2 以上、SFT +0.25~0.47。
高置信度 token 替换优于低置信度：\(p \geq 0.99\) 显著优于 \(p \leq 0.1\)，验证了方法动机——替换模型已经掌握的"容易"token 才有增益。
token 概率的 U 型分布：约 27.1% 的 token 概率在 [0.9, 1.0)，34.7% 在 [0.0, 0.1)，两端集中。
理论与实践一致：有限上界保证了多轮迭代不会 collapse，实验证实了这一点。

亮点与洞察¶

问题定义精准：区分了"迭代 model collapse"和"非迭代 model collapse"，后者更贴近实际训练场景（直接混合而非迭代生成）。
方法极简高效：不需要自回归生成、不需要额外训练、单次前向传播 + top-k 采样，单张 4090 即可运行，工程成本极低。
理论扎实：在线性回归框架下严格证明了测试误差上界，从 \(O(n)\) 降到 \(O(1)\)。
"半合成数据"概念有启发性：不是"生成替代人类数据"的思路，而是"在人类数据上做最小修改"的思路，保留分布覆盖的同时提升数据质量。
四大统计发现系统扎实：从分布、特征、数据选择三个维度彻底解释了为什么合成数据不行。

局限与展望¶

理论框架局限于线性模型：实际 LLM 是高度非线性的 Transformer，线性回归框架的上界保证能否真正迁移到实际场景存疑。
改进幅度有限：SFT 阶段提升仅 0.25~0.47 个点，预训练提升也不大（32.75→33.11），实用价值需进一步验证。
依赖强先验模型：需要 Llama-3-8B 级别的模型来估计 token 概率，对资源有限的场景仍有门槛。
阈值 \(p\) 的选择：消融显示不同 \(p\) 值表现有波动，缺乏自适应选择策略。
未涉及多轮迭代编辑的实证验证：理论证明了多轮迭代的上界，但实验只做了单轮编辑。

评分¶

维度	分数 (1-5)	说明
新颖性	4	"token 级编辑"而非"纯合成"的思路新颖且实用
理论深度	4	线性回归框架下的证明严谨，但非线性场景存疑
实验充分度	4	覆盖三个训练阶段、多模型、多领域，消融完整
实用性	3.5	方法简单可落地，但改进幅度偏小
写作质量	4	逻辑清晰，四个 Finding 层层递进
综合	4	扎实的工作，问题重要、方法简洁、理论与实验俱全

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评