跳转至

Language Model Behavioral Phases are Consistent Across Architecture, Training Data, and Scale

基本信息

  • arXiv: 2510.24963
  • 会议: NeurIPS 2025
  • 作者: James A. Michaelov, Roger P. Levy, Benjamin K. Bergen
  • 机构: UC San Diego(以论文页为准)
  • 代码: 论文页面未明确公开(可后续补查)

一句话总结

论文在 Transformer、Mamba、RWKV,不同数据集与参数规模(14M 到 12B)上系统分析 1400+ checkpoints,发现语言模型预训练中存在高度一致的行为阶段;词级行为变化最多可由 unigram 频率、n-gram 概率、语义相似度三类简单启发式解释(最高约 98% 方差)。

背景与动机

我们常把语言模型训练视作“黑箱能力增长”,但关键问题是: - 不同架构是否学习路径本质不同? - 规模变大是否会改变行为演化规律? - 训练数据变化会否打破可解释性?

该工作尝试回答:LM 学习轨迹是否存在跨条件稳定的阶段性规律。

核心问题

能否用统一、可解释的行为指标描述不同 LM 在预训练过程中的演化,并验证这种阶段模式是否具备跨架构、跨数据、跨规模一致性?

方法详解

1. 大规模 checkpoint 行为分析

  • 覆盖 1400+ 模型检查点;
  • 评估语料超过 110k 英文 token;
  • 横跨 Transformer/Mamba/RWKV 与多种训练配置。

2. 三类启发式解释变量

词级行为变化由三种量解释: - Unigram probability(词频偏好) - n-gram probability(上下文局部统计) - Semantic similarity(词与上下文语义相容性)

通过这些变量拟合模型词预测行为,量化解释比例。

3. Behavioral Phases 发现

论文观察到一致的阶段特征: - 训练中模型对词的预测逐步向更高阶 n-gram 统计“过拟合式贴近”; - 这种相位变化不依赖具体架构或数据细节; - 暗示预训练存在通用学习轨迹。

实验结论(摘要可见)

  • 三类简单启发式可解释最多约 98% 的词级行为方差;
  • 行为阶段在不同架构、数据集、规模下保持一致;
  • 学习轨迹可能具有比我们预期更强的“普适动力学”。

亮点

  1. 规模化实证强:跨模型家族和规模系统验证。
  2. 解释变量简单但有效:降低了行为分析门槛。
  3. 结论具有基础研究意义:对“能力涌现”讨论提供新视角。
  4. 可用于训练监控:行为相位可作为预训练诊断信号。

局限性

  1. 主要基于英文语料与词级统计,跨语言泛化待验证。
  2. “阶段一致”不等于“能力一致”,任务层面需补充。
  3. 相关性解释强,但因果机制仍需进一步实验拆解。

与相关工作的对比

  • 相比能力榜单式评测:该工作关注训练动态而非静态终点。
  • 相比单架构分析:跨 Transformer/Mamba/RWKV 更具普适性。
  • 相比纯现象描述:给出了可量化的低维解释变量框架。

启发

  • 可将 behavioral phases 用于蒸馏与课程学习阶段划分。
  • 对 test-time scaling 研究有参考价值:不同阶段可能对应不同推理策略收益。
  • 对 agent 训练可考虑“阶段感知”微调,避免错配学习目标。

评分

  • 新颖性:★★★★☆
  • 技术深度:★★★★☆
  • 实验完整度:★★★★★
  • 研究启发性:★★★★★