Large Vocabulary Size Improves Large Language Models¶
会议: ACL 2025
arXiv: 2406.16508
代码: 无
领域: LLM/NLP
关键词: vocabulary size, tokenization, language model, scaling law, continual training
一句话总结¶
实证研究词表大小与 LLM 性能的关系,在英语和日语上证明更大的词表(从 5K 到 500K)一致带来更好的下游性能,并提出在继续训练场景中替换词表的方法。
研究背景与动机¶
- 领域现状:单语 LLM 词表通常 30K-60K,多语言约 250K,但最优词表大小缺乏系统研究。
- 现有痛点:词表大小影响嵌入层参数量、token 序列长度和计算效率,但其对性能的影响未被量化。
- 核心矛盾:更大词表意味着更多参数和更短序列,更小词表意味着更少参数但更长序列——哪个更好?
- 本文要解决什么? 在公平对比条件下量化词表大小对 LLM 性能的影响。
- 切入角度:固定内部层参数(680M),变化词表(5K-500K),对比两种训练量(1T tokens / 1 epoch)。
- 核心idea一句话:更大词表 = 更好性能,且在继续训练中替换词表也能带来提升。
方法详解¶
整体框架¶
构建 5 种词表大小(5K/10K/50K/100K/500K)-> 在相同的英语/日语数据上训练 GPT-3 Large 架构(680M 内部参数)-> 对比常识推理基准性能 -> 扩展到继续训练场景。
关键设计¶
- 公平对比设计
- 两种训练配置:固定 1T tokens(大词表多 epoch)或固定 1 epoch(大词表少 tokens)
-
设计动机:排除训练量差异的偏差
-
词表替换策略(用于继续训练)
- 新词表的嵌入初始化为旧词表中最相关 token 嵌入的加权平均
- 设计动机:在继续训练中使用比原始词表更合适的词表
实验关键数据¶
主实验 — 词表大小 vs 性能(英语常识推理,1T tokens)¶
| 词表大小 | PIQA | HellaSwag | WinoGrande | ARC-E | 平均 |
|---|---|---|---|---|---|
| 5K | ~72% | ~55% | ~52% | ~55% | ~58.5% |
| 10K | ~73% | ~57% | ~53% | ~57% | ~60.0% |
| 50K | ~74% | ~59% | ~54% | ~59% | ~61.5% |
| 100K | ~75% | ~60% | ~55% | ~60% | ~62.5% |
| 500K | ~76% | ~62% | ~56% | ~62% | ~64.0% |
继续训练词表替换¶
| 配置 | 日语 JSQuAD | 日语 JCQA |
|---|---|---|
| 原始词表继续训练 | 基线 | 基线 |
| 替换为日语优化词表 | +2-3% | +2-3% |
关键发现¶
- 更大词表一致更好:从 5K 到 500K,在英语和日语上单调提升
- 两种训练配置下结论一致:无论固定 tokens 还是固定 epochs,大词表都更优
- 继续训练中替换词表也有效:为不同目标语言优化词表可以提升性能
- 500K 词表的 LLM 只多了嵌入层参数,内部层完全一样
亮点与洞察¶
- 简单但有影响力的实证结论——为 LLM 设计者提供了明确建议:词表应该更大
- 词表替换方法为继续训练场景提供了实用工具
- 日语(字符丰富语言)的实验验证了结论的跨语言适用性
局限性 / 可改进方向¶
- 仅在 680M 参数模型上验证,更大模型可能有不同
- 只测了两种语言
- 改进方向:与 BPE-dropout 等方法对比、更大规模验证
相关工作与启发¶
- vs Kaplan et al. (Scaling Laws):他们研究模型大小和数据量,本文补充了词表大小这一维度
- vs Hoffmann et al. (Chinchilla):Chinchilla 优化参数/数据比,本文优化词表/参数比
评分¶
- 新颖性: ⭐⭐⭐⭐ 填补了词表大小研究的空白
- 实验充分度: ⭐⭐⭐⭐ 5种词表×2语言×2配置
- 写作质量: ⭐⭐⭐⭐ 实验设计公平
- 价值: ⭐⭐⭐⭐ 对 LLM 设计有直接实用建议