Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale¶

基本信息¶

arXiv: 2510.24963
会议: NeurIPS 2025
作者: James A. Michaelov, Roger P. Levy, Benjamin K. Bergen
机构: UC San Diego（以论文页为准）
代码: 论文页面未明确公开（可后续补查）

一句话总结¶

论文在 Transformer、Mamba、RWKV，不同数据集与参数规模（14M 到 12B）上系统分析 1400+ checkpoints，发现语言模型预训练中存在高度一致的行为阶段；词级行为变化最多可由 unigram 频率、n-gram 概率、语义相似度三类简单启发式解释（最高约 98% 方差）。

背景与动机¶

我们常把语言模型训练视作“黑箱能力增长”，但关键问题是： - 不同架构是否学习路径本质不同？ - 规模变大是否会改变行为演化规律？ - 训练数据变化会否打破可解释性？

该工作尝试回答：LM 学习轨迹是否存在跨条件稳定的阶段性规律。

核心问题¶

能否用统一、可解释的行为指标描述不同 LM 在预训练过程中的演化，并验证这种阶段模式是否具备跨架构、跨数据、跨规模一致性？

方法详解¶

1. 大规模 checkpoint 行为分析¶

覆盖 1400+ 模型检查点；
评估语料超过 110k 英文 token；
横跨 Transformer/Mamba/RWKV 与多种训练配置。

2. 三类启发式解释变量¶

词级行为变化由三种量解释： - Unigram probability（词频偏好） - n-gram probability（上下文局部统计） - Semantic similarity（词与上下文语义相容性）

通过这些变量拟合模型词预测行为，量化解释比例。

3. Behavioral Phases 发现¶

论文观察到一致的阶段特征： - 训练中模型对词的预测逐步向更高阶 n-gram 统计“过拟合式贴近”； - 这种相位变化不依赖具体架构或数据细节； - 暗示预训练存在通用学习轨迹。

实验结论（摘要可见）¶

三类简单启发式可解释最多约 98% 的词级行为方差；
行为阶段在不同架构、数据集、规模下保持一致；
学习轨迹可能具有比我们预期更强的“普适动力学”。

亮点¶

规模化实证强：跨模型家族和规模系统验证。
解释变量简单但有效：降低了行为分析门槛。
结论具有基础研究意义：对“能力涌现”讨论提供新视角。
可用于训练监控：行为相位可作为预训练诊断信号。

局限性¶

主要基于英文语料与词级统计，跨语言泛化待验证。
“阶段一致”不等于“能力一致”，任务层面需补充。
相关性解释强，但因果机制仍需进一步实验拆解。

与相关工作的对比¶

相比能力榜单式评测：该工作关注训练动态而非静态终点。
相比单架构分析：跨 Transformer/Mamba/RWKV 更具普适性。
相比纯现象描述：给出了可量化的低维解释变量框架。

启发¶

可将 behavioral phases 用于蒸馏与课程学习阶段划分。
对 test-time scaling 研究有参考价值：不同阶段可能对应不同推理策略收益。
对 agent 训练可考虑“阶段感知”微调，避免错配学习目标。

评分¶

新颖性：★★★★☆
技术深度：★★★★☆
实验完整度：★★★★★
研究启发性：★★★★★