Between Circuits and Chomsky: Pre-pretraining on Formal Languages Imparts Linguistic Biases¶

会议: ACL 2025
arXiv: 2502.19249
代码: GitHub
领域: 语言模型预训练 / 形式语言 / 数据效率
关键词: pre-pretraining, 形式语言, Chomsky层级, 电路复杂度, 归纳偏置

一句话总结¶

提出在自然语言预训练前先在形式语言上进行"pre-pretraining"，发现具有层级依赖结构的形式语言（如 k-Shuffle Dyck）能为 Transformer 提供有效的归纳偏置，使 1B 参数模型以 33% 更少的 token 达到相同的语言建模损失。

研究背景与动机¶

领域现状: 语言模型虽然在各类任务上取得惊人表现，但仍然非常"数据饥渴"——需要比人类多 5-6 个数量级的数据才能达到人类水平。数据效率是重要的前沿问题。
现有痛点: 在低资源语言、数据有限场景下模型训练困难；随着大部分自然语言数据已被使用，继续提升模型的数据效率成为关键挑战。
核心矛盾: 形式语言与自然语言看似毫无关联，但先前工作表明在形式语言上的预训练能改善自然语言习得——关键问题在于：什么特征的形式语言能实现有效迁移？
本文要解决什么: 探究形式语言的哪些特性使得 pre-pretraining 能有效迁移到自然语言。
切入角度: 从语言学（Chomsky 层级）和计算复杂性理论（电路层级 / C-RASP）两个维度交叉分析。
核心idea一句话: 最优的 pre-pretraining 语言应当位于 Chomsky 层级和电路复杂度层级的交集处——既能捕获自然语言的层级依赖结构，又在 Transformer 的计算能力范围内可学习。

方法详解¶

整体框架¶

在自然语言预训练前，先在形式语言数据上训练模型（pre-pretraining），然后将权重直接迁移到自然语言预训练阶段。系统测试了 4 种形式语言：1-Dyck（嵌套括号）、k-Dyck（多类型括号）、k-Shuffle Dyck（交叉依赖括号）、ww（复制语言），以及随机字符串和自然语言作为基线。

关键设计¶

Chomsky × Circuit 假说: 有效迁移发生在两个条件同时满足时——(a) 形式语言捕获了自然语言中存在的层级依赖结构（Chomsky 层级中的上下文敏感或以上）；(b) 形式语言在 Transformer 架构的计算限制范围内（可在 C-RASP 中定义）。k-Shuffle Dyck 恰好同时满足两个条件。
边际替代率 (MRS): 量化形式语言 token 的效率——一个形式语言 token 可以替代多少自然语言 token。实验中 k-Shuffle Dyck 的 MRS 远大于 1，意味着形式语言的 token 效率远高于自然语言。
子网络分析: 通过剪枝方法识别 pre-pretraining 阶段学到的稀疏子网络，验证这些注意力头在自然语言训练后仍然发挥关键作用——提供了迁移的机制性证据。

损失函数 / 训练策略¶

标准自回归语言建模损失（next-token prediction cross-entropy）
pre-pretraining 和 pretraining 阶段各自独立使用 learning rate warmup
保持预训练超参数和训练步数固定，仅改变 pre-pretraining 数据和持续时间

实验关键数据¶

主实验¶

Pythia 160M 模型在不同 pre-pretraining 语言后的表现：

Pre-pretraining 语言	C4验证损失	BLiMP语法↑	逐字检索↓	C-RASP?	层级依赖?
无 pre-pretraining	基线	基线	基线	-	-
随机二进制/整数字符串	劣于基线	-	-	-	否
自然语言	优于基线	无改善	改善	-	-
1-Dyck	优于基线	改善	改善	✓	部分
k-Dyck	优于基线	改善	改善	✗	✓
ww (复制)	劣于基线	改善	劣化	✗	✗
k-Shuffle Dyck	最优	改善	最优	✓	✓

Pythia 1B 规模实验：pre-pretraining 在 1.6B token 的 k-Shuffle Dyck 上后，仅需 1.10B 总 token 即达到基线（1.63B）的最终损失，token 效率提升 33%。

消融实验¶

实验	验证损失	发现
n-gram 拟合数据（unigram/bigram/trigram）	劣于 k-Shuffle Dyck	迁移效果非来自局部统计特性
词汇表大小 k=32/64/128/256	k=128 最优	存在最优超参数
子网络剪枝 50%	ℳ显著优于随机剪枝	pre-pretraining 的注意力头在自然语言中仍关键

关键发现¶

层级依赖是迁移的核心: 仅有层级依赖的语言（k-Dyck, k-Shuffle Dyck）实现正向迁移
随机数据有害: pre-pretraining 在随机字符串上反而损害性能
形式语言优于等量自然语言: MRS > 1，意味着形式语言 token 比自然语言 token 更"值钱"
所有形式语言都改善语法判断: 即使 ww 在整体损失上有害，也改善了 BLiMP 语法准确度
机制可追溯: pre-pretraining 学到的注意力头在后续自然语言训练中被保留和复用

亮点与洞察¶

理论假说优雅——Chomsky 层级 × 电路复杂度层级的交集精准定位最优 pre-pretraining 语言
令人惊讶的发现：形式语言的 token 效率竟然高于自然语言（MRS >> 1），挑战了统计学习理论的直觉
子网络分析提供了从形式到自然语言迁移的机制性证据，不仅是表面metric的观察
实用价值：pre-pretraining 权重可独立分发，轻松插入现有预训练流水线

局限性 / 可改进方向¶

仅测试了分块训练（先形式后自然），未探索混合训练是否更优
结论在英语（高资源）上验证，对低资源语言的效果可能不同甚至更显著
超过 1B 参数和 1.6B token 范围的 scaling law 未知
仅考虑 Transformer，RNN 和状态空间模型上的结论可能不同
k-Shuffle Dyck 最优超参数（如词汇表大小）需更高效的自动搜索方法

评分¶

新颖性: ⭐⭐⭐⭐⭐ Chomsky × Circuit 假说视角独特，发现形式语言效率优于自然语言非常震撼
实验充分度: ⭐⭐⭐⭐ 多语言对比、消融充分，缺少更大scale验证
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，实验设计精巧，叙事流畅
价值: ⭐⭐⭐⭐⭐ 为预训练数据效率提供了全新方向，有望影响大模型训练实践