Emergent Abilities of Large Language Models under Continued Pretraining for Language Adaptation¶

会议: ACL 2025
arXiv: 2506.00288
代码: 无
领域: LLM/NLP
关键词: 持续预训练, 语言适应, 涌现能力, 灾难性遗忘, 上下文学习, 课程学习, EMA

一句话总结¶

揭示了持续预训练（CPT）进行语言适应时，混入英文数据对保留模型上下文学习（ICL）能力和下游涌现能力至关重要——尽管不影响验证困惑度；并提出课程学习和 EMA 权重平均作为替代方案。

研究背景与动机¶

英语中心问题：现有 LLM 高度偏向英语，在低资源语言（如巴斯克语、阿拉伯语、印尼语）上性能显著下降，CPT 是主流的语言适应方案。
常见做法：CPT 时通常混入 20% 英文数据，但其具体作用机理一直缺乏系统研究。
反直觉发现：纯目标语言 CPT 与混入英文 CPT 在目标语言验证困惑度上几乎相同（如巴斯克语 PPL 3.58 vs 3.35），但下游任务准确率差距巨大（28.89 vs 34.14）。
挑战已有假设：先前单语预训练研究认为相似 PPL 的模型应有相似下游表现 (Xia et al., 2023; Du et al., 2024)，本文证明该规律在跨语言 CPT 中不成立。
灾难性遗忘：不含英文的 CPT 在训练初期（前几步）就发生 ICL 能力的灾难性遗忘，Copain 准确率从 44.67 骤降至接近零。
实践需求：需要理解英文混合训练的真正机制，并找到降低对英文数据依赖的替代方案。

方法详解¶

整体框架¶

本文以 Llama 2 7B/13B、Llama 3.1 8B、Gemma 2 9B 为基座模型，在巴斯克语、阿拉伯语、印尼语三种目标语言上进行系统性 CPT 实验。对比两种 CPT 配置：纯目标语言 vs 混入 20% 英文数据。在此基础上，提出两种无需英文数据的替代方案。训练采用全参数微调，学习率 \(1 \times 10^{-4}\)，余弦调度，10k 步训练。

模块一：Copain 基准——语言无关的 ICL 评估¶

为解耦 ICL 能力与语言知识在下游评估中的混淆，提出 Copain（Contextual Pattern Inference）基准。设计 7 个任务（最大/最小/中位数整数、奇偶识别、字母序首/末字符），输入为纯数字/字符列表，无自然语言指令，模型需从 few-shot 示例中推断任务模式。共 1050 个样例，使用精确匹配评估。该基准揭示了不含英文 CPT 的 ICL 灾难性遗忘（Llama 2 7B 巴斯克语：44.67 → 20.12）。

模块二：课程学习（Curriculum Learning）¶

基于"关键期集中在训练早期"的洞察，提出仅在前 10%（1k/10k）步混入英文数据，之后切换为纯目标语言训练。实验表明该方案与全程混入英文效果相当（巴斯克语下游准确率 35.12 vs 34.14），同时由于后期全部预算用于目标语言，PPL 反而更优（3.08 vs 3.35）。

模块三：EMA 权重平均¶

将参数漂移过大视为灾难性遗忘的根因，引入指数移动平均（EMA）作为正则化手段。每隔 \(\eta\) 步执行权重平均：

\[\theta_t = \begin{cases} \theta'_t & \text{if } t \leq 0 \lor t \bmod \eta \neq 0 \\ \alpha \theta_{t-\eta} + (1-\alpha) \theta'_t & \text{otherwise} \end{cases}\]

其中 \(\alpha = 0.92\) 为衰减率，\(\eta\) 为应用间隔（巴斯克语/印尼语 \(\eta=1\)，阿拉伯语 \(\eta=10\)）。EMA 无需任何英文数据即可有效限制参数偏移，在所有语言上取得最优 PPL，下游任务与混入英文 CPT 表现接近。

训练细节¶

硬件：\(4 \times 8\) A100 GPU
有效批大小：256，最大序列长度 4096
各语言目标语料约 4.5–4.7B tokens，英文占比 20%（来自 The Pile 的 500k 文档）
评估：5-shot 多选基准（ArabicMMLU、IndoMMLU、EusTrivia 等）+ Copain

实验¶

表1：主实验——英文混合对比（Table 2）¶

模型	PPL	下游准确率	Copain
Llama 2 7B (基座)	23.64	27.43	44.67
+ CPT (eu+en)	3.35	34.14	43.43
+ CPT (eu)	3.58	28.89	20.12
Llama 2 13B (基座)	13.66	29.52	49.23
+ CPT (eu+en)	2.82	42.52	47.80
+ CPT (eu)	2.79	35.20	29.43
Llama 3.1 8B (基座)	2.18	42.31	41.32
+ CPT (eu+en)	1.73	55.75	42.04
+ CPT (eu)	1.82	54.84	41.19

表2：替代方案对比（Table 3 & 4）¶

方法 (Basque, Llama 2 7B)	PPL	下游准确率	Copain
CPT (eu+en, full)	3.35	34.14	43.43
CPT (eu+en, curr 10%)	3.08	35.12	42.94
CPT w/ EMA (eu only)	2.98	34.89	42.66
CPT (eu only, baseline)	3.58	28.89	20.12

关键发现¶

PPL ≠ 下游能力：两种 CPT 配置的目标语言 PPL 差距极小，但下游准确率差距可达 7+ 点（Llama 2 13B 巴斯克语），彻底打破了"相似 PPL→相似下游表现"的假设。
ICL 灾难性遗忘是根因：不含英文的 CPT 在前几步内 Copain 从 ~45 骤降至接近 0，参数 L2 距离在第 100 步时已是含英文版本的 7 倍、第 1000 步达 15 倍。
关键期集中在训练初期：课程学习仅前 10% 步混入英文即可完全恢复下游性能，证实灾难性遗忘的窗口期短而关键。
基座模型越弱，英文越重要：Llama 2 目标语言初始 PPL 高、Copain 下降剧烈；Llama 3.1/Gemma 2 已较好支持目标语言，差距缩小。
LoRA 限制参数偏移但阻碍学习：LoRA 有效保留 ICL 但几乎不提升下游任务，提示参数偏移需在"保留能力"与"学习新语言"间取得平衡。

亮点¶

首次系统揭示英文混合在跨语言 CPT 中保留 ICL/涌现能力的机制，将现象归因于训练早期的参数偏移与灾难性遗忘
Copain 基准设计巧妙——纯数字/字符测试完美解耦 ICL 与语言知识
从 PPL、下游准确率、下游标签 PPL、参数 L2 距离四个维度构建完整证据链
课程学习和 EMA 两种替代方案实用性强，EMA 方案完全消除了对英文数据的依赖
跨三种语言（巴斯克语/阿拉伯语/印尼语）× 四种模型验证，结论稳健

局限¶

EMA 的间隔参数 \(\eta\) 对语言敏感（巴斯克语 \(\eta=1\)，阿拉伯语 \(\eta=10\)），缺乏自适应调节机制
仅测试 7–13B 规模模型，未验证 70B+ 大模型是否表现一致
评估局限于多选基准，缺乏开放生成任务（如摘要、翻译）的系统验证
未探索英文以外的高资源语言（如中文、法语）作为 CPT 混合语言的效果
未涉及词表扩展场景，所有实验均使用原始 tokenizer

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统揭示 CPT 中英文混合对涌现能力保留的机制，Copain 基准设计新颖
有效性: ⭐⭐⭐⭐ — 四维度证据链完整，跨语言跨模型验证充分，课程学习/EMA 方案有效
实用性: ⭐⭐⭐⭐ — 课程学习仅需 10% 步英文即可，EMA 完全无需英文，对低资源语言 CPT 具有直接指导价值
表达: ⭐⭐⭐⭐⭐ — 图表设计精良，从现象到机理到解决方案的叙事逻辑极为清晰