Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases¶
会议: ACL 2025
arXiv: 2502.19249
代码: GitHub
领域: 语言模型预训练 / 形式语言 / 数据效率
关键词: pre-pretraining, 形式语言, Chomsky层级, 电路复杂度, 归纳偏置
一句话总结¶
提出在自然语言预训练前先在形式语言上进行"pre-pretraining",发现具有层级依赖结构的形式语言(如 k-Shuffle Dyck)能为 Transformer 提供有效的归纳偏置,使 1B 参数模型以 33% 更少的 token 达到相同的语言建模损失。
研究背景与动机¶
- 领域现状: 语言模型虽然在各类任务上取得惊人表现,但仍然非常"数据饥渴"——需要比人类多 5-6 个数量级的数据才能达到人类水平。数据效率是重要的前沿问题。
- 现有痛点: 在低资源语言、数据有限场景下模型训练困难;随着大部分自然语言数据已被使用,继续提升模型的数据效率成为关键挑战。
- 核心矛盾: 形式语言与自然语言看似毫无关联,但先前工作表明在形式语言上的预训练能改善自然语言习得——关键问题在于:什么特征的形式语言能实现有效迁移?
- 本文要解决什么: 探究形式语言的哪些特性使得 pre-pretraining 能有效迁移到自然语言。
- 切入角度: 从语言学(Chomsky 层级)和计算复杂性理论(电路层级 / C-RASP)两个维度交叉分析。
- 核心idea一句话: 最优的 pre-pretraining 语言应当位于 Chomsky 层级和电路复杂度层级的交集处——既能捕获自然语言的层级依赖结构,又在 Transformer 的计算能力范围内可学习。
方法详解¶
整体框架¶
在自然语言预训练前,先在形式语言数据上训练模型(pre-pretraining),然后将权重直接迁移到自然语言预训练阶段。系统测试了 4 种形式语言:1-Dyck(嵌套括号)、k-Dyck(多类型括号)、k-Shuffle Dyck(交叉依赖括号)、ww(复制语言),以及随机字符串和自然语言作为基线。
关键设计¶
- Chomsky × Circuit 假说: 有效迁移发生在两个条件同时满足时——(a) 形式语言捕获了自然语言中存在的层级依赖结构(Chomsky 层级中的上下文敏感或以上);(b) 形式语言在 Transformer 架构的计算限制范围内(可在 C-RASP 中定义)。k-Shuffle Dyck 恰好同时满足两个条件。
- 边际替代率 (MRS): 量化形式语言 token 的效率——一个形式语言 token 可以替代多少自然语言 token。实验中 k-Shuffle Dyck 的 MRS 远大于 1,意味着形式语言的 token 效率远高于自然语言。
- 子网络分析: 通过剪枝方法识别 pre-pretraining 阶段学到的稀疏子网络,验证这些注意力头在自然语言训练后仍然发挥关键作用——提供了迁移的机制性证据。
损失函数 / 训练策略¶
- 标准自回归语言建模损失(next-token prediction cross-entropy)
- pre-pretraining 和 pretraining 阶段各自独立使用 learning rate warmup
- 保持预训练超参数和训练步数固定,仅改变 pre-pretraining 数据和持续时间
实验关键数据¶
主实验¶
Pythia 160M 模型在不同 pre-pretraining 语言后的表现:
| Pre-pretraining 语言 | C4验证损失 | BLiMP语法↑ | 逐字检索↓ | C-RASP? | 层级依赖? |
|---|---|---|---|---|---|
| 无 pre-pretraining | 基线 | 基线 | 基线 | - | - |
| 随机二进制/整数字符串 | 劣于基线 | - | - | - | 否 |
| 自然语言 | 优于基线 | 无改善 | 改善 | - | - |
| 1-Dyck | 优于基线 | 改善 | 改善 | ✓ | 部分 |
| k-Dyck | 优于基线 | 改善 | 改善 | ✗ | ✓ |
| ww (复制) | 劣于基线 | 改善 | 劣化 | ✗ | ✗ |
| k-Shuffle Dyck | 最优 | 改善 | 最优 | ✓ | ✓ |
Pythia 1B 规模实验:pre-pretraining 在 1.6B token 的 k-Shuffle Dyck 上后,仅需 1.10B 总 token 即达到基线(1.63B)的最终损失,token 效率提升 33%。
消融实验¶
| 实验 | 验证损失 | 发现 |
|---|---|---|
| n-gram 拟合数据(unigram/bigram/trigram) | 劣于 k-Shuffle Dyck | 迁移效果非来自局部统计特性 |
| 词汇表大小 k=32/64/128/256 | k=128 最优 | 存在最优超参数 |
| 子网络剪枝 50% | ℳ显著优于随机剪枝 | pre-pretraining 的注意力头在自然语言中仍关键 |
关键发现¶
- 层级依赖是迁移的核心: 仅有层级依赖的语言(k-Dyck, k-Shuffle Dyck)实现正向迁移
- 随机数据有害: pre-pretraining 在随机字符串上反而损害性能
- 形式语言优于等量自然语言: MRS > 1,意味着形式语言 token 比自然语言 token 更"值钱"
- 所有形式语言都改善语法判断: 即使 ww 在整体损失上有害,也改善了 BLiMP 语法准确度
- 机制可追溯: pre-pretraining 学到的注意力头在后续自然语言训练中被保留和复用
亮点与洞察¶
- 理论假说优雅——Chomsky 层级 × 电路复杂度层级的交集精准定位最优 pre-pretraining 语言
- 令人惊讶的发现:形式语言的 token 效率竟然高于自然语言(MRS >> 1),挑战了统计学习理论的直觉
- 子网络分析提供了从形式到自然语言迁移的机制性证据,不仅是表面metric的观察
- 实用价值:pre-pretraining 权重可独立分发,轻松插入现有预训练流水线
局限性 / 可改进方向¶
- 仅测试了分块训练(先形式后自然),未探索混合训练是否更优
- 结论在英语(高资源)上验证,对低资源语言的效果可能不同甚至更显著
- 超过 1B 参数和 1.6B token 范围的 scaling law 未知
- 仅考虑 Transformer,RNN 和状态空间模型上的结论可能不同
- k-Shuffle Dyck 最优超参数(如词汇表大小)需更高效的自动搜索方法
相关工作与启发¶
- 与课程学习(Bengio et al., 2009)相关但方向新颖——传统课程学习在 BabyLM 挑战中结果多为负面,而本文的形式语言路线成功
- 与代码预训练迁移到自然语言的现象一致——代码的结构性也可能提供类似的归纳偏置
- 启示:形式语言 pre-pretraining 可类比为"认知热身",先建立结构化推理的基础电路,再高效学习自然语言内容
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ Chomsky × Circuit 假说视角独特,发现形式语言效率优于自然语言非常震撼
- 实验充分度: ⭐⭐⭐⭐ 多语言对比、消融充分,缺少更大scale验证
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰,实验设计精巧,叙事流畅
- 价值: ⭐⭐⭐⭐⭐ 为预训练数据效率提供了全新方向,有望影响大模型训练实践