跳转至

Large Vocabulary Size Improves Large Language Models

会议: ACL 2025
arXiv: 2406.16508
代码: 无
领域: LLM/NLP
关键词: vocabulary size, tokenization, language model, scaling law, continual training

一句话总结

实证研究词表大小与 LLM 性能的关系,在英语和日语上证明更大的词表(从 5K 到 500K)一致带来更好的下游性能,并提出在继续训练场景中替换词表的方法。

研究背景与动机

  1. 领域现状:单语 LLM 词表通常 30K-60K,多语言约 250K,但最优词表大小缺乏系统研究。
  2. 现有痛点:词表大小影响嵌入层参数量、token 序列长度和计算效率,但其对性能的影响未被量化。
  3. 核心矛盾:更大词表意味着更多参数和更短序列,更小词表意味着更少参数但更长序列——哪个更好?
  4. 本文要解决什么? 在公平对比条件下量化词表大小对 LLM 性能的影响。
  5. 切入角度:固定内部层参数(680M),变化词表(5K-500K),对比两种训练量(1T tokens / 1 epoch)。
  6. 核心idea一句话:更大词表 = 更好性能,且在继续训练中替换词表也能带来提升。

方法详解

整体框架

构建 5 种词表大小(5K/10K/50K/100K/500K)-> 在相同的英语/日语数据上训练 GPT-3 Large 架构(680M 内部参数)-> 对比常识推理基准性能 -> 扩展到继续训练场景。

关键设计

  1. 公平对比设计
  2. 两种训练配置:固定 1T tokens(大词表多 epoch)或固定 1 epoch(大词表少 tokens)
  3. 设计动机:排除训练量差异的偏差

  4. 词表替换策略(用于继续训练)

  5. 新词表的嵌入初始化为旧词表中最相关 token 嵌入的加权平均
  6. 设计动机:在继续训练中使用比原始词表更合适的词表

实验关键数据

主实验 — 词表大小 vs 性能(英语常识推理,1T tokens)

词表大小 PIQA HellaSwag WinoGrande ARC-E 平均
5K ~72% ~55% ~52% ~55% ~58.5%
10K ~73% ~57% ~53% ~57% ~60.0%
50K ~74% ~59% ~54% ~59% ~61.5%
100K ~75% ~60% ~55% ~60% ~62.5%
500K ~76% ~62% ~56% ~62% ~64.0%

继续训练词表替换

配置 日语 JSQuAD 日语 JCQA
原始词表继续训练 基线 基线
替换为日语优化词表 +2-3% +2-3%

关键发现

  • 更大词表一致更好:从 5K 到 500K,在英语和日语上单调提升
  • 两种训练配置下结论一致:无论固定 tokens 还是固定 epochs,大词表都更优
  • 继续训练中替换词表也有效:为不同目标语言优化词表可以提升性能
  • 500K 词表的 LLM 只多了嵌入层参数,内部层完全一样

亮点与洞察

  • 简单但有影响力的实证结论——为 LLM 设计者提供了明确建议:词表应该更大
  • 词表替换方法为继续训练场景提供了实用工具
  • 日语(字符丰富语言)的实验验证了结论的跨语言适用性

局限性 / 可改进方向

  • 仅在 680M 参数模型上验证,更大模型可能有不同
  • 只测了两种语言
  • 改进方向:与 BPE-dropout 等方法对比、更大规模验证

相关工作与启发

  • vs Kaplan et al. (Scaling Laws):他们研究模型大小和数据量,本文补充了词表大小这一维度
  • vs Hoffmann et al. (Chinchilla):Chinchilla 优化参数/数据比,本文优化词表/参数比

评分

  • 新颖性: ⭐⭐⭐⭐ 填补了词表大小研究的空白
  • 实验充分度: ⭐⭐⭐⭐ 5种词表×2语言×2配置
  • 写作质量: ⭐⭐⭐⭐ 实验设计公平
  • 价值: ⭐⭐⭐⭐ 对 LLM 设计有直接实用建议