Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test¶

会议: ICLR 2026
arXiv: 2506.21551
代码: 无
领域: 对齐RLHF
关键词: grokking, memorization, generalization, MoE pathway, pretraining dynamics

一句话总结¶

首次在实际规模 LLM（7B MoE）的近单遍预训练中验证 grokking 现象——不同数据组异步记忆、延迟泛化；通过分析 MoE routing pathway 的演化（从 instance-specific 到 structured/shared），提出两个零成本指标来监控泛化进度，无需 instruction tuning 和 benchmark 评估。

研究背景与动机¶

领域现状：Grokking（延迟泛化）是训练 Transformer 时观察到的反直觉现象——训练 loss 收敛后很久，泛化性能才开始急剧提升。现有 grokking 研究限于小模型在算法数据上训练数千 epoch。
现有痛点：(a) LLM 预训练是近单遍的（~1 epoch），没有重复回放数据，loss 收敛机制与多 epoch 训练截然不同；(b) LLM 在异构跨域数据上训练，不同数据的记忆速度和泛化关系可能不同；(c) 监控 LLM 泛化性能代价极高——需要先做 instruction tuning 再跑 benchmark。
核心矛盾：预训练 loss 收敛后模型内部仍在发生什么变化？为什么 loss 不变但泛化在提升？有没有不依赖外部评估的指标来追踪泛化？
本文要解决什么？ (a) 验证 grokking 是否在实际 LLM 预训练中存在；(b) 揭示记忆到泛化转变的内部机制；(c) 提供零成本泛化监控指标。
切入角度：MoE 架构天然将计算组织为 expert 选择序列（pathway），可以追踪每个样本的 pathway 如何演化——从随机/instance-specific（记忆）到结构化/跨样本共享（泛化）。
核心 idea 一句话：Grokking 在 LLM 预训练中以局部、异步的形式存在；MoE pathway 从个体特异到跨样本共享的演化是记忆到泛化转变的可观测信号。

方法详解¶

整体框架¶

基于 OLMoE-7B 的开源预训练 checkpoint 序列，跟踪训练数据的记忆时间点和下游 benchmark 的泛化时间点，验证局部 grokking。然后分析 MoE routing pathway 的动态变化，开发两个指标量化 pathway 复杂度，证明它们与泛化性能强相关。

关键设计¶

局部异步 Grokking 的验证:
做什么：将训练数据按记忆时间点 \(t_i^*\) 分组，将 benchmark 样本按预测变正确的时间点分组，通过 Hungarian 匹配配对
核心发现：不同数据组在不同步骤被记忆，泛化通常在记忆之后以滞后方式出现。数学和代码任务需要记忆更多样本才能开始泛化，而常识 QA 泛化更快
设计动机：证明 LLM 中的 grokking 不是全局同步的，而是局部的、数据异质的
Pathway 编辑距离（样本间相似度）:
做什么：度量不同训练样本在 MoE 各层的 expert 选择序列的相似度
核心思路：每个样本构建 pathway 字符串 \(s_i = \text{concat}(e_1^{(i)}, ..., e_L^{(i)})\)，计算样本对的 Levenshtein 编辑距离 \(D_{path}(s_i, s_j)\)
关键发现：早期 pathway 几乎相同（低编辑距离）→ 记忆阶段产生分歧（高编辑距离）→ 记忆后编辑距离下降——语义相关的样本开始收敛到相似的 pathway，标志着共享知识的出现
Pathway 一致性（层间平滑度）:
做什么：度量单个样本在相邻层之间的 expert 选择一致性
核心思路：计算相邻层所选 expert embedding 的加权余弦相似度
关键发现：记忆后 pathway 一致性增加——expert 选择在层间变得更平滑、更结构化
理论支撑:
在单层 MoE 上建立了 pathway 复杂度与泛化界之间的联系
更结构化的 pathway → 更紧的泛化界

损失函数 / 训练策略¶

分析基于 OLMoE-7B 的 10 个等间隔预训练 checkpoint
泛化评估：每个 checkpoint 做 LoRA instruction tuning → 跑标准 benchmark
指标计算在训练数据上完成，零额外成本

实验关键数据¶

主实验¶

Grokking 现象验证（4 个领域 × 多个数据组）:

领域	记忆后泛化延迟	数据难度效应
数学	长延迟（需记忆大量样本）	越晚记忆，延迟越长
代码	长延迟	同上
常识 QA	短延迟	相对容易泛化
领域 QA	中等延迟	中等

消融实验¶

指标	与泛化性能相关性	说明
Pathway 编辑距离	强负相关	编辑距离下降→泛化提升
Pathway 一致性	强正相关	一致性增加→泛化提升
训练 loss	无显著相关	loss 收敛后无法预测泛化

关键发现¶

Grokking 在 LLM 预训练中确实存在，但是局部的、异步的——不同数据组的记忆和泛化时间点不同
训练 loss 不能预测泛化：loss 收敛后泛化仍在提升，且提升幅度因领域/难度而异
Pathway 从个体化到结构化的转变：记忆完成后，模型继续在"更聪明地记忆"——发现跨样本可迁移的知识结构
深度依赖的重组：浅层 pathway 最先共享化（普遍表示），深层保留更多灵活性（任务特化）
两个指标与泛化高度相关：可作为零成本的泛化监控工具

亮点与洞察¶

"更聪明的记忆"：loss 收敛不意味着学习停止——模型继续发现更高效的编码方式（shared pathways），解释了为什么持续训练能提升泛化
MoE 作为可解释性工具：expert routing 的离散性天然提供了分析计算分配的窗口，这在 dense 模型中不可能做到
零成本泛化监控的实用价值：对 LLM 训练者来说，不用做 instruction tuning + benchmark 就能判断何时停止预训练，极其有价值
局部 grokking 暗示数据课程设计：不同数据的记忆→泛化延迟不同，暗示可以据此设计数据混合策略

局限性 / 可改进方向¶

仅在 OLMoE-7B 上分析，更大规模模型和 dense 架构的 grokking 行为未验证
Pathway 指标依赖 MoE 架构，不能直接推广到 dense Transformer
instruction tuning 的选择（LoRA vs full-finetune）可能影响泛化测量
因果关系未完全建立——pathway 共享化是泛化的原因还是结果？

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在实际规模 LLM 预训练中系统研究 grokking，发现局部异步模式
实验充分度: ⭐⭐⭐⭐ 4 域 × 多数据组 + 层级分析 + 理论支撑，但仅 1 个模型
写作质量: ⭐⭐⭐⭐⭐ 问题动机推导严谨，发现的逐步揭示非常引人入胜
价值: ⭐⭐⭐⭐⭐ 对 LLM 训练动态理解的根本性贡献+实用的泛化监控工具