The Impact of Token Granularity on the Predictive Power of Language Model Surprisal¶

会议: ACL 2025
arXiv: 2412.11940
领域: LLM NLP
关键词: token granularity, subword tokenization, surprisal, cognitive modeling, reading times

一句话总结¶

本文系统研究了子词 token 粒度（词表大小 256~128K）对语言模型 surprisal 预测人类阅读时间能力的影响，发现约 8K 词表大小的中等粒度 token 在自然阅读时间预测上最优，而更粗粒度（更接近词级）的 token 在花园路径句法效应上表现更敏感。

研究背景与动机¶

语言模型 surprisal（词级惊奇度）被广泛用于认知建模，预测人类逐词阅读的处理难度
影响 surprisal 质量的因素如模型架构、训练数据已被研究，但子词 token 粒度这一基础因素被忽视
Token 粒度通过两条路径影响 surprisal 质量：
初始偏置：细粒度 token 将低频长词拆成多个 token，隐式编码词长与词频信息；粗粒度 token 使所有词的初始概率更均匀
表示质量：粗粒度 token 学到更接近词级共现统计的表示；细粒度 token 使词被分散到多个向量中，增加学习难度

方法详解¶

整体框架¶

使用 Unigram Language Model (ULM) tokenizer 训练 11 种不同词表大小（256 到 128K）的分词器
基于 Mamba-2 架构训练三种规模的语言模型（Small/Medium/Large）
在 5 个自然阅读时间语料库上评估 surprisal 的预测能力
在花园路径句法构造上评估 surprisal 对句法歧义的敏感性

关键设计¶

分词器：选用 ULM tokenizer（而非 BPE），以字符为基本单元，在 100 万 Wiki-40B 文章上训练
模型架构：选用 Mamba-2（状态空间模型）而非 Transformer，因为不同粒度导致序列长度差异巨大，SSM 的线性复杂度更适合处理长序列
模型规模：Small（2.6M 参数/6 层）、Medium（19.8M/12 层）、Large（88M/24 层）
评估方法：线性混合效应回归模型，计算加入 surprisal 后的对数似然增量（ΔLogLik）
词概率修正：应用 whitespace 概率修正避免词概率之和超过 1

实验关键数据¶

主实验——自然阅读时间¶

训练前：词表大小 4K 的 surprisal 预测力最强（ΔLogLik ≈ 2553），256 最弱（≈ 2219），128K 也较弱（≈ 1899）
训练后：
Small 模型中，4K~8K 词表的优势持续且被放大
Large 模型中，不同词表大小的差异缩小（大模型能克服初始偏置）
综合来看，8K 词表大小的 surprisal 最优，甚至优于 GPT-2 Small（词表 ≈ 50K）
困惑度：粗粒度 token（大词表）在困惑度指标上更优，但困惑度更低并不一定意味着对阅读时间的预测更好

花园路径实验¶

粗粒度 token（大词表）的模型对花园路径效应更敏感：在关键消歧词处赋予更高的 surprisal 差异
但 Small 模型中这一趋势最清晰，Large 模型差异不明显
所有模型仍大幅低估人类花园路径效应（差 1~2 个数量级）

关键发现¶

Token 粒度影响巨大且在训练前即存在：纯分词器（无 LM 训练）的 surprisal 已能预测阅读时间，4K 词表最优
模型大小与粒度存在交互：大模型能部分克服分词粒度带来的初始偏置
自然阅读预测和句法敏感性需要不同的最优粒度：前者偏好中等粒度（8K），后者偏好粗粒度

亮点与洞察¶

揭示了一个被忽视的关键变量：分词粒度不仅影响 NLP 性能，还深刻影响模型作为认知模型的质量
实验设计精巧：跨 11 种粒度 × 3 种模型大小 × 5 个阅读语料库 × 10 种阅读指标，全面覆盖
选用 Mamba-2 巧妙解决了不同粒度下序列长度不可比的问题
发现纯分词即可预测阅读时间，说明人类阅读处理对词长/词频极其敏感
不同任务需要不同最优粒度的发现对认知建模实践有直接指导意义

局限性¶

仅在英语数据和英语母语者上验证，跨语言泛化性未知
模型规模有限（最大 88M 参数），更大或更小模型可能有不同结论
仅关注认知建模场景，不涉及 NLP 应用性能
花园路径实验仅涵盖 3 种句法构造（MV/RR、NP/S、NP/Z），覆盖面有限

详细实验数据补充¶

阅读时间语料库：5 个语料库，10 种阅读指标 - Natural Stories：181 名被试，10,256 词，自步速阅读 - Brown：35 名被试，7,180 词，自步速阅读 - GECO：14 名被试，56,411 词，眼动追踪（FP/GP） - Dundee：10 名被试，51,501 词，眼动追踪（SP/FP/GP） - Provo：84 名被试，2,746 词，眼动追踪（SP/FP/GP）

花园路径实验详细结果： - MV/RR 构造：Small 模型中，128K 词表的 GPE ≈ 6ms，256 词表 ≈ 2ms（粗粒度优势明显） - NP/S 构造：Medium 模型中，1K 词表出现异常峰值，但原因在于链接函数差异而非 surprisal 本身 - NP/Z 构造：Large 模型中差异最不明显，但大词表仍略有优势 - 所有模型的 GPE 估计仍低于人类 1~2 个数量级

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统研究 token 粒度对认知建模 surprisal 的影响
技术深度: ⭐⭐⭐⭐ — 实验规模大、设计严谨、统计方法扎实
实验充分性: ⭐⭐⭐⭐⭐ — 11 种粒度 × 3 种规模，5 个阅读语料库，两类评估任务
清晰度: ⭐⭐⭐⭐ — 论文结构清晰，可视化优秀
影响力: ⭐⭐⭐ — 对认知建模社区有价值，但受众相对小众