Causal Estimation of Tokenisation Bias¶

会议: ACL 2025
arXiv: 2506.03149
代码: GitHub
机构: University of Cambridge & ETH Zürich 领域: AI安全
关键词: tokenisation bias, causal inference, regression discontinuity, BPE, WordPiece, vocabulary, language model

一句话总结¶

本文首次将 tokeniser 选择对语言模型输出的影响定义为"分词偏差"(tokenisation bias)，并利用因果推断中的断点回归设计(RDD)来量化这一效应——发现当一个 subword 被纳入词表时，其对应字符串的概率最高可提升 17 倍（小模型），揭示分词是语言建模中一个被低估的关键设计选择。

研究背景与动机¶

现状¶

现代语言模型在 subword 序列上训练，但最终定义的是字符串上的概率分布
不同 tokeniser（不同词表）会将相同字符串映射为不同的 subword 序列（如 "hello" → ⟨he,llo⟩ 或 ⟨hello⟩）
理想情况下，tokeniser 的选择不应影响模型给字符串分配的概率；但实际中确实会影响

痛点¶

估计分词偏差面临根本性的因果推断难题：每个模型只用一个 tokeniser 训练，无法直接比较
不能简单比较词表内/外词的概率——词表是按频率等标准构建的，两组词有系统性差异
暴力方法（为每种可能的 tokeniser 分别训练模型）计算上不可行
现有研究知道 tokeniser 影响模型性能，但对"如何影响"缺乏定量理解

核心洞察¶

Tokeniser 词表通常通过增量算法构建（BPE 按频率、WordPiece 按似然增益），这产生了一个 subword 排名
词表大小 K 是一个任意的截断点：排名前 K 的 subword 入选，后面的被排除
这个截断点构成了一个天然的"断点"(discontinuity)，可以用断点回归设计来估计因果效应
截断点附近的 subword 具有相似的特征，但"是否入选词表"是准随机分配的

方法详解¶

整体框架¶

将分词偏差形式化为因果效应：比较 subword v 在词表中时（观察值）和不在词表中时（反事实值）模型对其字符串的 log-probability 差异。利用 BPE/WordPiece 的排名机制和词表大小截断作为断点，应用 regression discontinuity design (RDD) 进行因果估计。

关键设计 1：因果框架定义¶

处理变量 W_v = 1{v ∈ T}：subword v 是否在 tokeniser 词表中
潜在结果 Y_v(w)：在处理条件 w 下，模型对字符序列 c_v 赋予的 log-probability
因果效应 τ_v = Y_v(1) - Y_v(0)：入选词表 vs 不入选对 log-probability 的影响
平均因果效应 ATE = E[Y(1) - Y(0)]（对截断点附近 subword 取平均）

关键设计 2：Regression Discontinuity Design (RDD)¶

运行变量 R_v：subword v 的排名（BPE 按合并频率，WordPiece 按似然增益）
截断点 c = K（词表大小）：R_v ≤ K 则 v 入选词表，R_v > K 则未入选
在截断点附近，排名相差 1 的 subword 特征几乎相同（频率、长度等），但入选/未入选是准随机的
使用局部线性回归拟合截断点两侧的 outcome，断点处的跳变即为因果效应
带宽 h 通过 Imbens-Kalyanaraman 方法自动选择

关键设计 3：实验控制与验证¶

训练多种规模的模型（100M、850M 参数）
使用 BPE 和 WordPiece 两种 tokeniser
在多种词表大小（1K、2K、4K、8K、16K、32K）上实验
McCrary 密度检验验证排名没有被操纵
Covariate balance 检验确认截断点两侧 subword 特征均衡
Placebo 检验（在非截断点位置估计）确认效应不存在

训练策略¶

在固定数据集上从头训练 transformer 语言模型
每种词表大小 × tokeniser 组合训练独立模型
使用字符级 marginalization 将 subword 概率转换为字符串概率
跟踪训练过程中偏差的变化趋势

实验关键数据¶

主实验：不同规模模型的分词偏差¶

模型规模	Tokeniser	平均偏差 (nats)	概率倍数
100M 参数	BPE	2.88	~17.8x
100M 参数	WordPiece	2.51	~12.3x
850M 参数	BPE	~1.0	~2.7x
850M 参数	WordPiece	~1.0	~2.7x

词表大小的影响¶

偏差在所有词表大小（1K-32K）上都一致存在
较小词表通常产生较大偏差
偏差随训练进行持续增长，未出现收敛趋势

关键发现¶

分词偏差普遍存在：在所有测试的模型规模、词表大小和 tokeniser 类型上都观察到了显著偏差
小模型偏差更大：100M 参数模型的偏差可达 2.88 nats（概率提升 17 倍），比 850M 模型的 ~1 nat 大得多
偏差随训练增长：偏差在训练过程中持续增加，说明模型越来越"依赖"词表中 subword 的整体性
BPE 偏差略大于 WordPiece：不同 tokeniser 产生的偏差有差异但方向一致
因果性验证：McCrary 检验、covariate balance、placebo 检验均通过，确认是因果效应而非混淆

亮点与洞察¶

方法论创新：首次将因果推断的 RDD 方法应用于语言建模中的分词问题，非常优雅
定量揭示被忽视的问题：虽然"分词会影响模型"是直觉认知，但本文首次给出了精确的因果量化
17 倍概率差：这个数字非常惊人——仅仅因为一个 subword 是否在词表中，其字符串的概率就能差 17 倍
对实践的警示：在多语言、专业领域等场景中，tokeniser 设计可能比模型架构选择更重要

局限性 / 可改进方向¶

RDD 只能估计截断点附近（marginal subwords）的局部因果效应，不能推广到词表核心区域
实验模型规模有限（最大 850M），未在 7B+ 模型上验证偏差是否进一步缩小
仅考虑 subword 是否入选词表这一维度的偏差，未分析 tokeniser 内部排序的影响
未提出减轻分词偏差的具体方法（如改进的训练策略或正则化）
多语言场景下的分词偏差分析是重要的未来方向

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 因果推断 + 分词的跨领域创新非常独到
技术深度: ⭐⭐⭐⭐⭐ — RDD 的应用严谨完整，验证充分
实用性: ⭐⭐⭐ — 主要是诊断性工具，暂未提出解决方案
实验充分度: ⭐⭐⭐⭐ — 多规模、多 tokeniser、完整因果验证