跳转至

Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases

会议: ACL 2025
arXiv: 2502.19249
代码: GitHub
领域: 语言模型预训练 / 形式语言 / 数据效率
关键词: pre-pretraining, 形式语言, Chomsky层级, 电路复杂度, 归纳偏置

一句话总结

提出在自然语言预训练前先在形式语言上进行"pre-pretraining",发现具有层级依赖结构的形式语言(如 k-Shuffle Dyck)能为 Transformer 提供有效的归纳偏置,使 1B 参数模型以 33% 更少的 token 达到相同的语言建模损失。

研究背景与动机

  1. 领域现状: 语言模型虽然在各类任务上取得惊人表现,但仍然非常"数据饥渴"——需要比人类多 5-6 个数量级的数据才能达到人类水平。数据效率是重要的前沿问题。
  2. 现有痛点: 在低资源语言、数据有限场景下模型训练困难;随着大部分自然语言数据已被使用,继续提升模型的数据效率成为关键挑战。
  3. 核心矛盾: 形式语言与自然语言看似毫无关联,但先前工作表明在形式语言上的预训练能改善自然语言习得——关键问题在于:什么特征的形式语言能实现有效迁移?
  4. 本文要解决什么: 探究形式语言的哪些特性使得 pre-pretraining 能有效迁移到自然语言。
  5. 切入角度: 从语言学(Chomsky 层级)和计算复杂性理论(电路层级 / C-RASP)两个维度交叉分析。
  6. 核心idea一句话: 最优的 pre-pretraining 语言应当位于 Chomsky 层级和电路复杂度层级的交集处——既能捕获自然语言的层级依赖结构,又在 Transformer 的计算能力范围内可学习。

方法详解

整体框架

在自然语言预训练前,先在形式语言数据上训练模型(pre-pretraining),然后将权重直接迁移到自然语言预训练阶段。系统测试了 4 种形式语言:1-Dyck(嵌套括号)、k-Dyck(多类型括号)、k-Shuffle Dyck(交叉依赖括号)、ww(复制语言),以及随机字符串和自然语言作为基线。

关键设计

  1. Chomsky × Circuit 假说: 有效迁移发生在两个条件同时满足时——(a) 形式语言捕获了自然语言中存在的层级依赖结构(Chomsky 层级中的上下文敏感或以上);(b) 形式语言在 Transformer 架构的计算限制范围内(可在 C-RASP 中定义)。k-Shuffle Dyck 恰好同时满足两个条件。
  2. 边际替代率 (MRS): 量化形式语言 token 的效率——一个形式语言 token 可以替代多少自然语言 token。实验中 k-Shuffle Dyck 的 MRS 远大于 1,意味着形式语言的 token 效率远高于自然语言。
  3. 子网络分析: 通过剪枝方法识别 pre-pretraining 阶段学到的稀疏子网络,验证这些注意力头在自然语言训练后仍然发挥关键作用——提供了迁移的机制性证据。

损失函数 / 训练策略

  • 标准自回归语言建模损失(next-token prediction cross-entropy)
  • pre-pretraining 和 pretraining 阶段各自独立使用 learning rate warmup
  • 保持预训练超参数和训练步数固定,仅改变 pre-pretraining 数据和持续时间

实验关键数据

主实验

Pythia 160M 模型在不同 pre-pretraining 语言后的表现:

Pre-pretraining 语言 C4验证损失 BLiMP语法↑ 逐字检索↓ C-RASP? 层级依赖?
无 pre-pretraining 基线 基线 基线 - -
随机二进制/整数字符串 劣于基线 - - -
自然语言 优于基线 无改善 改善 - -
1-Dyck 优于基线 改善 改善 部分
k-Dyck 优于基线 改善 改善
ww (复制) 劣于基线 改善 劣化
k-Shuffle Dyck 最优 改善 最优

Pythia 1B 规模实验:pre-pretraining 在 1.6B token 的 k-Shuffle Dyck 上后,仅需 1.10B 总 token 即达到基线(1.63B)的最终损失,token 效率提升 33%。

消融实验

实验 验证损失 发现
n-gram 拟合数据(unigram/bigram/trigram) 劣于 k-Shuffle Dyck 迁移效果非来自局部统计特性
词汇表大小 k=32/64/128/256 k=128 最优 存在最优超参数
子网络剪枝 50% ℳ显著优于随机剪枝 pre-pretraining 的注意力头在自然语言中仍关键

关键发现

  • 层级依赖是迁移的核心: 仅有层级依赖的语言(k-Dyck, k-Shuffle Dyck)实现正向迁移
  • 随机数据有害: pre-pretraining 在随机字符串上反而损害性能
  • 形式语言优于等量自然语言: MRS > 1,意味着形式语言 token 比自然语言 token 更"值钱"
  • 所有形式语言都改善语法判断: 即使 ww 在整体损失上有害,也改善了 BLiMP 语法准确度
  • 机制可追溯: pre-pretraining 学到的注意力头在后续自然语言训练中被保留和复用

亮点与洞察

  • 理论假说优雅——Chomsky 层级 × 电路复杂度层级的交集精准定位最优 pre-pretraining 语言
  • 令人惊讶的发现:形式语言的 token 效率竟然高于自然语言(MRS >> 1),挑战了统计学习理论的直觉
  • 子网络分析提供了从形式到自然语言迁移的机制性证据,不仅是表面metric的观察
  • 实用价值:pre-pretraining 权重可独立分发,轻松插入现有预训练流水线

局限性 / 可改进方向

  • 仅测试了分块训练(先形式后自然),未探索混合训练是否更优
  • 结论在英语(高资源)上验证,对低资源语言的效果可能不同甚至更显著
  • 超过 1B 参数和 1.6B token 范围的 scaling law 未知
  • 仅考虑 Transformer,RNN 和状态空间模型上的结论可能不同
  • k-Shuffle Dyck 最优超参数(如词汇表大小)需更高效的自动搜索方法

相关工作与启发

  • 与课程学习(Bengio et al., 2009)相关但方向新颖——传统课程学习在 BabyLM 挑战中结果多为负面,而本文的形式语言路线成功
  • 与代码预训练迁移到自然语言的现象一致——代码的结构性也可能提供类似的归纳偏置
  • 启示:形式语言 pre-pretraining 可类比为"认知热身",先建立结构化推理的基础电路,再高效学习自然语言内容

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Chomsky × Circuit 假说视角独特,发现形式语言效率优于自然语言非常震撼
  • 实验充分度: ⭐⭐⭐⭐ 多语言对比、消融充分,缺少更大scale验证
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰,实验设计精巧,叙事流畅
  • 价值: ⭐⭐⭐⭐⭐ 为预训练数据效率提供了全新方向,有望影响大模型训练实践