跳转至

The Impact of Token Granularity on the Predictive Power of Language Model Surprisal

会议: ACL 2025
arXiv: 2412.11940
领域: LLM NLP
关键词: token granularity, subword tokenization, surprisal, cognitive modeling, reading times

一句话总结

本文系统研究了子词 token 粒度(词表大小 256~128K)对语言模型 surprisal 预测人类阅读时间能力的影响,发现约 8K 词表大小的中等粒度 token 在自然阅读时间预测上最优,而更粗粒度(更接近词级)的 token 在花园路径句法效应上表现更敏感。

研究背景与动机

  • 语言模型 surprisal(词级惊奇度)被广泛用于认知建模,预测人类逐词阅读的处理难度
  • 影响 surprisal 质量的因素如模型架构、训练数据已被研究,但子词 token 粒度这一基础因素被忽视
  • Token 粒度通过两条路径影响 surprisal 质量:
  • 初始偏置:细粒度 token 将低频长词拆成多个 token,隐式编码词长与词频信息;粗粒度 token 使所有词的初始概率更均匀
  • 表示质量:粗粒度 token 学到更接近词级共现统计的表示;细粒度 token 使词被分散到多个向量中,增加学习难度

方法详解

整体框架

  1. 使用 Unigram Language Model (ULM) tokenizer 训练 11 种不同词表大小(256 到 128K)的分词器
  2. 基于 Mamba-2 架构训练三种规模的语言模型(Small/Medium/Large)
  3. 在 5 个自然阅读时间语料库上评估 surprisal 的预测能力
  4. 在花园路径句法构造上评估 surprisal 对句法歧义的敏感性

关键设计

  • 分词器:选用 ULM tokenizer(而非 BPE),以字符为基本单元,在 100 万 Wiki-40B 文章上训练
  • 模型架构:选用 Mamba-2(状态空间模型)而非 Transformer,因为不同粒度导致序列长度差异巨大,SSM 的线性复杂度更适合处理长序列
  • 模型规模:Small(2.6M 参数/6 层)、Medium(19.8M/12 层)、Large(88M/24 层)
  • 评估方法:线性混合效应回归模型,计算加入 surprisal 后的对数似然增量(ΔLogLik)
  • 词概率修正:应用 whitespace 概率修正避免词概率之和超过 1

实验关键数据

主实验——自然阅读时间

  • 训练前:词表大小 4K 的 surprisal 预测力最强(ΔLogLik ≈ 2553),256 最弱(≈ 2219),128K 也较弱(≈ 1899)
  • 训练后
  • Small 模型中,4K~8K 词表的优势持续且被放大
  • Large 模型中,不同词表大小的差异缩小(大模型能克服初始偏置)
  • 综合来看,8K 词表大小的 surprisal 最优,甚至优于 GPT-2 Small(词表 ≈ 50K)
  • 困惑度:粗粒度 token(大词表)在困惑度指标上更优,但困惑度更低并不一定意味着对阅读时间的预测更好

花园路径实验

  • 粗粒度 token(大词表)的模型对花园路径效应更敏感:在关键消歧词处赋予更高的 surprisal 差异
  • 但 Small 模型中这一趋势最清晰,Large 模型差异不明显
  • 所有模型仍大幅低估人类花园路径效应(差 1~2 个数量级)

关键发现

  • Token 粒度影响巨大且在训练前即存在:纯分词器(无 LM 训练)的 surprisal 已能预测阅读时间,4K 词表最优
  • 模型大小与粒度存在交互:大模型能部分克服分词粒度带来的初始偏置
  • 自然阅读预测和句法敏感性需要不同的最优粒度:前者偏好中等粒度(8K),后者偏好粗粒度

亮点与洞察

  • 揭示了一个被忽视的关键变量:分词粒度不仅影响 NLP 性能,还深刻影响模型作为认知模型的质量
  • 实验设计精巧:跨 11 种粒度 × 3 种模型大小 × 5 个阅读语料库 × 10 种阅读指标,全面覆盖
  • 选用 Mamba-2 巧妙解决了不同粒度下序列长度不可比的问题
  • 发现纯分词即可预测阅读时间,说明人类阅读处理对词长/词频极其敏感
  • 不同任务需要不同最优粒度的发现对认知建模实践有直接指导意义

局限性

  • 仅在英语数据和英语母语者上验证,跨语言泛化性未知
  • 模型规模有限(最大 88M 参数),更大或更小模型可能有不同结论
  • 仅关注认知建模场景,不涉及 NLP 应用性能
  • 花园路径实验仅涵盖 3 种句法构造(MV/RR、NP/S、NP/Z),覆盖面有限

详细实验数据补充

阅读时间语料库:5 个语料库,10 种阅读指标 - Natural Stories:181 名被试,10,256 词,自步速阅读 - Brown:35 名被试,7,180 词,自步速阅读 - GECO:14 名被试,56,411 词,眼动追踪(FP/GP) - Dundee:10 名被试,51,501 词,眼动追踪(SP/FP/GP) - Provo:84 名被试,2,746 词,眼动追踪(SP/FP/GP)

花园路径实验详细结果: - MV/RR 构造:Small 模型中,128K 词表的 GPE ≈ 6ms,256 词表 ≈ 2ms(粗粒度优势明显) - NP/S 构造:Medium 模型中,1K 词表出现异常峰值,但原因在于链接函数差异而非 surprisal 本身 - NP/Z 构造:Large 模型中差异最不明显,但大词表仍略有优势 - 所有模型的 GPE 估计仍低于人类 1~2 个数量级

相关工作

  • 子词分词器的 NLP 性能影响:Bostrom & Durrett (2020)、Zouhar et al. (2023)
  • 心理语言学中的分词研究:Oh et al. (2021) 字符模型、Nair & Resnik (2023) 形态学分词
  • Surprisal 认知建模:Hale (2001)、Levy (2008)、Wilcox et al. (2020)
  • 状态空间模型:Mamba-2 (Dao & Gu, 2024)
  • 字符级概率建模:Giulianelli et al. (2024) 从 GPT-2 推导字符级概率

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次系统研究 token 粒度对认知建模 surprisal 的影响
  • 技术深度: ⭐⭐⭐⭐ — 实验规模大、设计严谨、统计方法扎实
  • 实验充分性: ⭐⭐⭐⭐⭐ — 11 种粒度 × 3 种规模,5 个阅读语料库,两类评估任务
  • 清晰度: ⭐⭐⭐⭐ — 论文结构清晰,可视化优秀
  • 影响力: ⭐⭐⭐ — 对认知建模社区有价值,但受众相对小众