跳转至

📚 AI Paper Notes

Large Vocabulary Size Improves Large Language Models

Large Vocabulary Size Improves Large Language Models¶

会议: ACL 2025
arXiv: 2406.16508
代码: 无
领域: LLM/NLP
关键词: vocabulary size, tokenization, language model, scaling law, continual training

一句话总结¶

实证研究词表大小与 LLM 性能的关系，在英语和日语上证明更大的词表（从 5K 到 500K）一致带来更好的下游性能，并提出在继续训练场景中替换词表的方法。

研究背景与动机¶

领域现状：单语 LLM 词表通常 30K-60K，多语言约 250K，但最优词表大小缺乏系统研究。
现有痛点：词表大小影响嵌入层参数量、token 序列长度和计算效率，但其对性能的影响未被量化。
核心矛盾：更大词表意味着更多参数和更短序列，更小词表意味着更少参数但更长序列——哪个更好？
本文要解决什么？ 在公平对比条件下量化词表大小对 LLM 性能的影响。
切入角度：固定内部层参数（680M），变化词表（5K-500K），对比两种训练量（1T tokens / 1 epoch）。
核心idea一句话：更大词表 = 更好性能，且在继续训练中替换词表也能带来提升。

方法详解¶

整体框架¶

构建 5 种词表大小（5K/10K/50K/100K/500K）-> 在相同的英语/日语数据上训练 GPT-3 Large 架构（680M 内部参数）-> 对比常识推理基准性能 -> 扩展到继续训练场景。

关键设计¶

公平对比设计
两种训练配置：固定 1T tokens（大词表多 epoch）或固定 1 epoch（大词表少 tokens）
设计动机：排除训练量差异的偏差
词表替换策略（用于继续训练）
新词表的嵌入初始化为旧词表中最相关 token 嵌入的加权平均
设计动机：在继续训练中使用比原始词表更合适的词表

实验关键数据¶

主实验 — 词表大小 vs 性能（英语常识推理，1T tokens）¶

词表大小	PIQA	HellaSwag	WinoGrande	ARC-E	平均
5K	~72%	~55%	~52%	~55%	~58.5%
10K	~73%	~57%	~53%	~57%	~60.0%
50K	~74%	~59%	~54%	~59%	~61.5%
100K	~75%	~60%	~55%	~60%	~62.5%
500K	~76%	~62%	~56%	~62%	~64.0%

继续训练词表替换¶

配置	日语 JSQuAD	日语 JCQA
原始词表继续训练	基线	基线
替换为日语优化词表	+2-3%	+2-3%

关键发现¶

更大词表一致更好：从 5K 到 500K，在英语和日语上单调提升
两种训练配置下结论一致：无论固定 tokens 还是固定 epochs，大词表都更优
继续训练中替换词表也有效：为不同目标语言优化词表可以提升性能
500K 词表的 LLM 只多了嵌入层参数，内部层完全一样

亮点与洞察¶

简单但有影响力的实证结论——为 LLM 设计者提供了明确建议：词表应该更大
词表替换方法为继续训练场景提供了实用工具
日语（字符丰富语言）的实验验证了结论的跨语言适用性

局限性 / 可改进方向¶

仅在 680M 参数模型上验证，更大模型可能有不同
只测了两种语言
改进方向：与 BPE-dropout 等方法对比、更大规模验证

相关工作与启发¶

vs Kaplan et al. (Scaling Laws)：他们研究模型大小和数据量，本文补充了词表大小这一维度
vs Hoffmann et al. (Chinchilla)：Chinchilla 优化参数/数据比，本文优化词表/参数比

评分¶

新颖性: ⭐⭐⭐⭐ 填补了词表大小研究的空白
实验充分度: ⭐⭐⭐⭐ 5种词表×2语言×2配置
写作质量: ⭐⭐⭐⭐ 实验设计公平
价值: ⭐⭐⭐⭐ 对 LLM 设计有直接实用建议