The Impact of Token Granularity on the Predictive Power of Language Model Surprisal¶
会议: ACL 2025
arXiv: 2412.11940
领域: LLM NLP
关键词: token granularity, subword tokenization, surprisal, cognitive modeling, reading times
一句话总结¶
本文系统研究了子词 token 粒度(词表大小 256~128K)对语言模型 surprisal 预测人类阅读时间能力的影响,发现约 8K 词表大小的中等粒度 token 在自然阅读时间预测上最优,而更粗粒度(更接近词级)的 token 在花园路径句法效应上表现更敏感。
研究背景与动机¶
- 语言模型 surprisal(词级惊奇度)被广泛用于认知建模,预测人类逐词阅读的处理难度
- 影响 surprisal 质量的因素如模型架构、训练数据已被研究,但子词 token 粒度这一基础因素被忽视
- Token 粒度通过两条路径影响 surprisal 质量:
- 初始偏置:细粒度 token 将低频长词拆成多个 token,隐式编码词长与词频信息;粗粒度 token 使所有词的初始概率更均匀
- 表示质量:粗粒度 token 学到更接近词级共现统计的表示;细粒度 token 使词被分散到多个向量中,增加学习难度
方法详解¶
整体框架¶
- 使用 Unigram Language Model (ULM) tokenizer 训练 11 种不同词表大小(256 到 128K)的分词器
- 基于 Mamba-2 架构训练三种规模的语言模型(Small/Medium/Large)
- 在 5 个自然阅读时间语料库上评估 surprisal 的预测能力
- 在花园路径句法构造上评估 surprisal 对句法歧义的敏感性
关键设计¶
- 分词器:选用 ULM tokenizer(而非 BPE),以字符为基本单元,在 100 万 Wiki-40B 文章上训练
- 模型架构:选用 Mamba-2(状态空间模型)而非 Transformer,因为不同粒度导致序列长度差异巨大,SSM 的线性复杂度更适合处理长序列
- 模型规模:Small(2.6M 参数/6 层)、Medium(19.8M/12 层)、Large(88M/24 层)
- 评估方法:线性混合效应回归模型,计算加入 surprisal 后的对数似然增量(ΔLogLik)
- 词概率修正:应用 whitespace 概率修正避免词概率之和超过 1
实验关键数据¶
主实验——自然阅读时间¶
- 训练前:词表大小 4K 的 surprisal 预测力最强(ΔLogLik ≈ 2553),256 最弱(≈ 2219),128K 也较弱(≈ 1899)
- 训练后:
- Small 模型中,4K~8K 词表的优势持续且被放大
- Large 模型中,不同词表大小的差异缩小(大模型能克服初始偏置)
- 综合来看,8K 词表大小的 surprisal 最优,甚至优于 GPT-2 Small(词表 ≈ 50K)
- 困惑度:粗粒度 token(大词表)在困惑度指标上更优,但困惑度更低并不一定意味着对阅读时间的预测更好
花园路径实验¶
- 粗粒度 token(大词表)的模型对花园路径效应更敏感:在关键消歧词处赋予更高的 surprisal 差异
- 但 Small 模型中这一趋势最清晰,Large 模型差异不明显
- 所有模型仍大幅低估人类花园路径效应(差 1~2 个数量级)
关键发现¶
- Token 粒度影响巨大且在训练前即存在:纯分词器(无 LM 训练)的 surprisal 已能预测阅读时间,4K 词表最优
- 模型大小与粒度存在交互:大模型能部分克服分词粒度带来的初始偏置
- 自然阅读预测和句法敏感性需要不同的最优粒度:前者偏好中等粒度(8K),后者偏好粗粒度
亮点与洞察¶
- 揭示了一个被忽视的关键变量:分词粒度不仅影响 NLP 性能,还深刻影响模型作为认知模型的质量
- 实验设计精巧:跨 11 种粒度 × 3 种模型大小 × 5 个阅读语料库 × 10 种阅读指标,全面覆盖
- 选用 Mamba-2 巧妙解决了不同粒度下序列长度不可比的问题
- 发现纯分词即可预测阅读时间,说明人类阅读处理对词长/词频极其敏感
- 不同任务需要不同最优粒度的发现对认知建模实践有直接指导意义
局限性¶
- 仅在英语数据和英语母语者上验证,跨语言泛化性未知
- 模型规模有限(最大 88M 参数),更大或更小模型可能有不同结论
- 仅关注认知建模场景,不涉及 NLP 应用性能
- 花园路径实验仅涵盖 3 种句法构造(MV/RR、NP/S、NP/Z),覆盖面有限
详细实验数据补充¶
阅读时间语料库:5 个语料库,10 种阅读指标 - Natural Stories:181 名被试,10,256 词,自步速阅读 - Brown:35 名被试,7,180 词,自步速阅读 - GECO:14 名被试,56,411 词,眼动追踪(FP/GP) - Dundee:10 名被试,51,501 词,眼动追踪(SP/FP/GP) - Provo:84 名被试,2,746 词,眼动追踪(SP/FP/GP)
花园路径实验详细结果: - MV/RR 构造:Small 模型中,128K 词表的 GPE ≈ 6ms,256 词表 ≈ 2ms(粗粒度优势明显) - NP/S 构造:Medium 模型中,1K 词表出现异常峰值,但原因在于链接函数差异而非 surprisal 本身 - NP/Z 构造:Large 模型中差异最不明显,但大词表仍略有优势 - 所有模型的 GPE 估计仍低于人类 1~2 个数量级
相关工作¶
- 子词分词器的 NLP 性能影响:Bostrom & Durrett (2020)、Zouhar et al. (2023)
- 心理语言学中的分词研究:Oh et al. (2021) 字符模型、Nair & Resnik (2023) 形态学分词
- Surprisal 认知建模:Hale (2001)、Levy (2008)、Wilcox et al. (2020)
- 状态空间模型:Mamba-2 (Dao & Gu, 2024)
- 字符级概率建模:Giulianelli et al. (2024) 从 GPT-2 推导字符级概率
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统研究 token 粒度对认知建模 surprisal 的影响
- 技术深度: ⭐⭐⭐⭐ — 实验规模大、设计严谨、统计方法扎实
- 实验充分性: ⭐⭐⭐⭐⭐ — 11 种粒度 × 3 种规模,5 个阅读语料库,两类评估任务
- 清晰度: ⭐⭐⭐⭐ — 论文结构清晰,可视化优秀
- 影响力: ⭐⭐⭐ — 对认知建模社区有价值,但受众相对小众