Exploring Forgetting in Large Language Model Pre-Training¶

会议: ACL2025
arXiv: 2410.17018
代码: -
领域: LLM/NLP
关键词: catastrophic forgetting, pre-training, entity memory, memory replay, forgetting curve

一句话总结¶

系统性地探索了 LLM 预训练阶段的灾难性遗忘问题，提出了基于实体记忆的新指标（M_ex、M_in）替代传统 PPL 来检测遗忘，并验证了周期性高强度 memory replay 策略在缓解预训练遗忘中的有效性。

研究背景与动机¶

灾难性遗忘（catastrophic forgetting）是构建全能模型的重大障碍。尽管在 LLM 微调阶段的遗忘问题已有大量研究，但预训练阶段的遗忘却鲜少被系统性探索。这一空白尤为关键，原因在于：

预训练是知识获取的主要阶段：模型在预训练中获取各种事实性知识，微调阶段主要增强任务能力。如果预训练中发生遗忘，模型会对用户的事实性查询给出不满意的回答

传统指标的失效：通用指标如 PPL 被证明对检测预训练遗忘不敏感（Gupta et al., 2023），这使得遗忘问题长期被遮蔽

检测困难：预训练数据极其多样，几乎不可能用单一任务指标来反映遗忘

本文提出三个核心研究问题： - (1) 如何正确识别和量化预训练中的遗忘？ - (2) 简单轻量的 memory replay 方法能否缓解预训练遗忘？ - (3) 模型的遗忘曲线是否与人类学习规律相似？能否指导 replay 策略设计？

方法详解¶

1. 遗忘的存在性验证¶

A+B 双数据集范式：为放大遗忘效果，设计了先在数据集 A 上训练、再在数据集 B 上训练的设置。A 较小以避免过拟合，B 较大模拟主流预训练场景。

PPL 的失败：实验显示 PPL 在 A→B 过渡时不仅没有升高，反而下降。原因是 PPL 的概率平均特性被常见 token 的高预测准确性所主导，掩盖了低频信息的丢失。

M(f) 指标的初步成功：Tirumala et al. (2022) 的 memorization score 通过二值判断（model 的 argmax 预测是否正确）比 PPL 更敏感，在 A→B 过渡时捕获到了微小的遗忘信号。但它仍被不易遗忘的特征所主导，导致低估遗忘程度。

2. 新的实体相关指标¶

核心论点：预训练遗忘应聚焦于实体信息的遗忘。理由： - 实体信息在数据中出现频率低，更容易被遗忘 - 用户对遗忘的感知主要通过实体信息（如"某人出生在哪"） - 相比抽象能力的遗忘，实体遗忘更容易定义和测量

M_in（内部召回指标）： - 输入包含实体的上下文（实体前 32 个 token），让模型贪婪解码 32 个 token - 计算解码 token 与训练数据真实 token 的逐 token 匹配率 - 衡量模型在给定实体上下文时输出实体相关细节的能力

M_ex（外部召回指标）： - 输入实体之前的 32 个 token（不含实体本身），让模型解码 32 个 token - 检查生成文本中是否包含目标实体的子串 - 衡量模型从暗示性上下文中回忆实体的能力

另外还采用 PPL_ent 和 M(f)_ent：在实体相关样本上计算 PPL 和 M(f) 的变体。

3. Memory Replay 策略¶

设计了多种 replay 策略并比较效果：

关键设计维度： - Replay 频率：每 100 步 replay 一次，仅 1% 的额外开销 - 存储策略：全部样本 / 含实体样本 / 高 loss 样本 - 检索策略：随机采样 vs BM25 相似度检索 - 退出机制：同一样本最多 replay 5 次，避免过度集中

核心策略：

策略	描述
Vanilla	标准预训练
Upper Bound	在测试集上直接训练后立即评估
BM25	用 BM25 检索相似已见样本进行 replay
BM25 + 仅实体样本	仅存储含实体的样本
Focused Stochasticity	随机采样 + 退出机制
Intensive Focused Stochasticity	每个 replay batch 训练 5 个 epoch

4. 遗忘曲线分析¶

受人类遗忘曲线（Loftus, 1985）启发，研究两个因素： - 学习强度的影响：初始高强度学习是否带来更持久的记忆？ - 周期性复习：类似人类的定期复习是否能改善遗忘曲线？

实验¶

实验设置¶

模型：GPT-2（受算力限制，预计 1.5B 模型需 ~30,000 GPU 小时）
数据集 A：OpenWebText (~8B tokens) 或 Pile (~13B tokens)
数据集 B：SlimPajama 子集 (~49B tokens)
混合预训练：将 A 和 B 混合打乱为一个完整集合从头训练

传统指标 vs 新指标¶

在 A (Pile) → B (SlimPajama) 的设置下： - PPL 和 M(f)：在 A→B 转换后反而持续改善，显示虚假的"无遗忘"信号 - PPL_ent 和 M(f)_ent：在实体数据上显示部分恢复，但仍被不易遗忘元素主导 - M_ex 和 M_in：在 A→B 转换时显示显著的性能下降，且恢复非常缓慢，更准确地反映了遗忘现象

Memory Replay 结果¶

方法	PPL_ent	M(f)_ent	M_ex (×10⁻³)	M_in (×10⁻²)
Vanilla 预训练	26.03	0.4093	5.273	3.988
Upper Bound	23.74	0.4182	14.46	4.162
BM25	27.95	0.4015	4.586	3.895
BM25 + 仅实体	28.09	0.4013	4.575	3.941
Focused Stochasticity	25.79	0.4101	5.496	3.980
Intensive Focused	25.40	0.4121	5.450	4.003

关键发现： 1. BM25 相似度检索反而不如 baseline：可能因为检索集中在少数样本上导致不均匀 2. 简单随机 replay 有效：Focused Stochasticity 优于 baseline 3. 高强度 replay 最优：Intensive Focused Stochasticity 在所有指标上最好，且仅增加 5% 计算量

下游任务验证¶

方法	HellaSwag	MMLU	Winograd	平均
Vanilla	27.46	23.20	53.47	34.71
Intensive Focused	27.75	23.00	55.68	35.48

减少样本级遗忘也改善了通用下游任务性能。

遗忘曲线发现¶

即使相同分布也会遗忘：后续训练数据与初始数据分布相同时，仍然观察到显著的指标下降
高学习强度 → 更慢遗忘：与人类学习规律一致，初始高强度学习带来更好的指标，但低强度实验最终会"追上来"
困难数据需要更多训练：难以记忆的数据从高强度学习中获益更大，维持更持久的差距
周期性高强度 replay 有效：每 1000 步进行一次 5 epoch 的高强度 replay，不仅提升了上界和下界，且比直接用 100 epoch 训练更节约计算

亮点与洞察¶

揭示了 PPL 作为遗忘指标的严重缺陷：PPL 被常见 token 的准确预测所主导，无法反映知识丰富但低频的实体信息遗忘。这对整个社区使用 PPL 进行评估提出了重要警示
实体视角的新颖切入：将预训练遗忘聚焦于实体记忆，既有理论合理性（实体是用户最直接感知的知识），又有实操可行性
人类学习规律的映射：发现 LLM 的遗忘曲线与 Loftus (1985) 的人类遗忘曲线惊人相似——高强度学习减缓遗忘、周期性复习改善长期记忆
极低的额外开销：Intensive Focused Stochasticity 仅增加 5% 计算量（T_replay = 1.05·T_0），却带来全面改善

局限性¶

模型规模小：受算力限制仅在 GPT-2 上实验，虽然 scaling law 暗示结论可推广到大模型，但缺乏直接验证
replay 策略探索有限：仅测试了简单的 replay 方法，更复杂的策略（如自适应频率、重要性加权）留待未来
集中学习的副作用：高强度 replay 可能影响模型的泛化性，特定数据子集的强化可能削弱其他任务的能力
与微调遗忘的关系：预训练遗忘和微调遗忘各有不同指标和缓解方法，二者的连接未被探索

评分¶

⭐⭐⭐⭐ (4/5)

选题重要且新颖——预训练遗忘长期被忽视但影响深远。新指标设计合理、实验逻辑清晰。但受限于计算资源仅在小模型验证，且 replay 策略较为简单，距离实际大规模预训练的应用还有距离。与人类遗忘曲线的类比为预训练策略设计提供了启发性的新方向。