Emergent Abilities of Large Language Models under Continued Pretraining for Language Adaptation¶
会议: ACL 2025
arXiv: 2506.00288
代码: 无
领域: LLM/NLP
关键词: 持续预训练, 语言适应, 涌现能力, 灾难性遗忘, 上下文学习, 课程学习, EMA
一句话总结¶
揭示了持续预训练(CPT)进行语言适应时,混入英文数据对保留模型上下文学习(ICL)能力和下游涌现能力至关重要——尽管不影响验证困惑度;并提出课程学习和 EMA 权重平均作为替代方案。
研究背景与动机¶
- 英语中心问题:现有 LLM 高度偏向英语,在低资源语言(如巴斯克语、阿拉伯语、印尼语)上性能显著下降,CPT 是主流的语言适应方案。
- 常见做法:CPT 时通常混入 20% 英文数据,但其具体作用机理一直缺乏系统研究。
- 反直觉发现:纯目标语言 CPT 与混入英文 CPT 在目标语言验证困惑度上几乎相同(如巴斯克语 PPL 3.58 vs 3.35),但下游任务准确率差距巨大(28.89 vs 34.14)。
- 挑战已有假设:先前单语预训练研究认为相似 PPL 的模型应有相似下游表现 (Xia et al., 2023; Du et al., 2024),本文证明该规律在跨语言 CPT 中不成立。
- 灾难性遗忘:不含英文的 CPT 在训练初期(前几步)就发生 ICL 能力的灾难性遗忘,Copain 准确率从 44.67 骤降至接近零。
- 实践需求:需要理解英文混合训练的真正机制,并找到降低对英文数据依赖的替代方案。
方法详解¶
整体框架¶
本文以 Llama 2 7B/13B、Llama 3.1 8B、Gemma 2 9B 为基座模型,在巴斯克语、阿拉伯语、印尼语三种目标语言上进行系统性 CPT 实验。对比两种 CPT 配置:纯目标语言 vs 混入 20% 英文数据。在此基础上,提出两种无需英文数据的替代方案。训练采用全参数微调,学习率 \(1 \times 10^{-4}\),余弦调度,10k 步训练。
模块一:Copain 基准——语言无关的 ICL 评估¶
为解耦 ICL 能力与语言知识在下游评估中的混淆,提出 Copain(Contextual Pattern Inference)基准。设计 7 个任务(最大/最小/中位数整数、奇偶识别、字母序首/末字符),输入为纯数字/字符列表,无自然语言指令,模型需从 few-shot 示例中推断任务模式。共 1050 个样例,使用精确匹配评估。该基准揭示了不含英文 CPT 的 ICL 灾难性遗忘(Llama 2 7B 巴斯克语:44.67 → 20.12)。
模块二:课程学习(Curriculum Learning)¶
基于"关键期集中在训练早期"的洞察,提出仅在前 10%(1k/10k)步混入英文数据,之后切换为纯目标语言训练。实验表明该方案与全程混入英文效果相当(巴斯克语下游准确率 35.12 vs 34.14),同时由于后期全部预算用于目标语言,PPL 反而更优(3.08 vs 3.35)。
模块三:EMA 权重平均¶
将参数漂移过大视为灾难性遗忘的根因,引入指数移动平均(EMA)作为正则化手段。每隔 \(\eta\) 步执行权重平均:
其中 \(\alpha = 0.92\) 为衰减率,\(\eta\) 为应用间隔(巴斯克语/印尼语 \(\eta=1\),阿拉伯语 \(\eta=10\))。EMA 无需任何英文数据即可有效限制参数偏移,在所有语言上取得最优 PPL,下游任务与混入英文 CPT 表现接近。
训练细节¶
- 硬件:\(4 \times 8\) A100 GPU
- 有效批大小:256,最大序列长度 4096
- 各语言目标语料约 4.5–4.7B tokens,英文占比 20%(来自 The Pile 的 500k 文档)
- 评估:5-shot 多选基准(ArabicMMLU、IndoMMLU、EusTrivia 等)+ Copain
实验¶
表1:主实验——英文混合对比(Table 2)¶
| 模型 | PPL | 下游准确率 | Copain |
|---|---|---|---|
| Llama 2 7B (基座) | 23.64 | 27.43 | 44.67 |
| + CPT (eu+en) | 3.35 | 34.14 | 43.43 |
| + CPT (eu) | 3.58 | 28.89 | 20.12 |
| Llama 2 13B (基座) | 13.66 | 29.52 | 49.23 |
| + CPT (eu+en) | 2.82 | 42.52 | 47.80 |
| + CPT (eu) | 2.79 | 35.20 | 29.43 |
| Llama 3.1 8B (基座) | 2.18 | 42.31 | 41.32 |
| + CPT (eu+en) | 1.73 | 55.75 | 42.04 |
| + CPT (eu) | 1.82 | 54.84 | 41.19 |
表2:替代方案对比(Table 3 & 4)¶
| 方法 (Basque, Llama 2 7B) | PPL | 下游准确率 | Copain |
|---|---|---|---|
| CPT (eu+en, full) | 3.35 | 34.14 | 43.43 |
| CPT (eu+en, curr 10%) | 3.08 | 35.12 | 42.94 |
| CPT w/ EMA (eu only) | 2.98 | 34.89 | 42.66 |
| CPT (eu only, baseline) | 3.58 | 28.89 | 20.12 |
关键发现¶
- PPL ≠ 下游能力:两种 CPT 配置的目标语言 PPL 差距极小,但下游准确率差距可达 7+ 点(Llama 2 13B 巴斯克语),彻底打破了"相似 PPL→相似下游表现"的假设。
- ICL 灾难性遗忘是根因:不含英文的 CPT 在前几步内 Copain 从 ~45 骤降至接近 0,参数 L2 距离在第 100 步时已是含英文版本的 7 倍、第 1000 步达 15 倍。
- 关键期集中在训练初期:课程学习仅前 10% 步混入英文即可完全恢复下游性能,证实灾难性遗忘的窗口期短而关键。
- 基座模型越弱,英文越重要:Llama 2 目标语言初始 PPL 高、Copain 下降剧烈;Llama 3.1/Gemma 2 已较好支持目标语言,差距缩小。
- LoRA 限制参数偏移但阻碍学习:LoRA 有效保留 ICL 但几乎不提升下游任务,提示参数偏移需在"保留能力"与"学习新语言"间取得平衡。
亮点¶
- 首次系统揭示英文混合在跨语言 CPT 中保留 ICL/涌现能力的机制,将现象归因于训练早期的参数偏移与灾难性遗忘
- Copain 基准设计巧妙——纯数字/字符测试完美解耦 ICL 与语言知识
- 从 PPL、下游准确率、下游标签 PPL、参数 L2 距离四个维度构建完整证据链
- 课程学习和 EMA 两种替代方案实用性强,EMA 方案完全消除了对英文数据的依赖
- 跨三种语言(巴斯克语/阿拉伯语/印尼语)× 四种模型验证,结论稳健
局限¶
- EMA 的间隔参数 \(\eta\) 对语言敏感(巴斯克语 \(\eta=1\),阿拉伯语 \(\eta=10\)),缺乏自适应调节机制
- 仅测试 7–13B 规模模型,未验证 70B+ 大模型是否表现一致
- 评估局限于多选基准,缺乏开放生成任务(如摘要、翻译)的系统验证
- 未探索英文以外的高资源语言(如中文、法语)作为 CPT 混合语言的效果
- 未涉及词表扩展场景,所有实验均使用原始 tokenizer
相关工作¶
- CPT 语言适应: Etxaniz et al. (2024) Latxa 系列;Gogoulou et al. (2024) 多语言 CPT;Fujii et al. (2024) 日语 LoRA CPT
- 持续学习稳定性差距: Lange et al. (2023) stability gap;Caccia et al. (2022) 遗忘-恢复动态
- EMA 权重平均: Morales-Brotons et al. (2024) LLM 训练中的 EMA;Izmailov et al. (2018) SWA;Cha et al. (2021) 域泛化
- 涌现能力: Xia et al. (2023), Du et al. (2024) PPL 与下游能力的关系
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统揭示 CPT 中英文混合对涌现能力保留的机制,Copain 基准设计新颖
- 有效性: ⭐⭐⭐⭐ — 四维度证据链完整,跨语言跨模型验证充分,课程学习/EMA 方案有效
- 实用性: ⭐⭐⭐⭐ — 课程学习仅需 10% 步英文即可,EMA 完全无需英文,对低资源语言 CPT 具有直接指导价值
- 表达: ⭐⭐⭐⭐⭐ — 图表设计精良,从现象到机理到解决方案的叙事逻辑极为清晰