A Partition Cover Approach for Tokenization¶

会议: NeurIPS 2025
arXiv: 2501.06246
代码: https://github.com/PreferredAI/pcatt/
领域: LLM / NLP / Tokenization
关键词: tokenization, BPE, partition cover, NP-hard, greedy algorithm

一句话总结¶

将分词（tokenization）问题重新建模为分区覆盖（partition cover）优化问题，证明其为NP-hard，并提出多项式时间的贪心算法GreedTok，在压缩率和1B参数LLM预训练下游任务上均优于BPE。

背景与动机¶

分词是LLM的基础组件，负责将文本编码为固定词表大小的token序列。当前主流方法是BPE（Byte-Pair Encoding），它把分词视为压缩问题，通过反复执行成对合并来构建词表。另一个方法是Unigram，它从大候选集自上而下剪枝。然而，BPE的成对合并机制是一种人为的算法约束——合并过程中产生的许多中间token可能永远不会出现在最终编码中，浪费了词表容量。Unigram则因其似然目标会过度偏好选择完整单词，牺牲了有信息量的子词token。目前对分词问题的理论理解也很有限，缺乏清晰的优化目标和复杂度分析。

核心问题¶

能否跳出BPE的成对合并和Unigram的剪枝范式，从更一般的优化视角来理解分词问题？具体来说：（1）分词问题的计算复杂度是什么？（2）能否设计不受合并序列约束、同时具有良好实际性能的分词算法？

方法详解¶

整体框架¶

作者提出了分词的分区覆盖（Partition Cover）形式化：给定语料库\(\mathcal{C}=(\mathbf{W}, \text{count})\)、候选token集合\(\mathbf{T}\)和预算\(k\)，目标是选择子集\(\mathbf{S} \subseteq \mathbf{T}\)（\(|\mathbf{S}| \leq k\)），使得用\(\mathbf{S}\)加上基础单字符token集\(\mathbf{B}\)对语料所有单词进行最优分割后，总token数最小。

核心思路是将"两个相邻字符是否被同一个token覆盖"作为基本决策变量，而不是像BPE那样约束token必须通过逐步合并产生。这样的形式化包含了所有基于合并的方案（它们都是合法解），但合法解空间更大——不限于自底向上合并能产生的词表。

关键设计¶

NP-hard证明：通过从顶点覆盖（vertex cover）问题的简单归约证明分词是NP-hard的。对于图\(\mathcal{G}=(V,E)\)的每条边\(\{V_i,V_j\}\)，构造单词\((@,V_i,@,V_j,@)\)，候选token为\(\{(@,V_i,@)\}\)的形式。这样选token覆盖单词等价于选顶点覆盖边。每个单词长度为5，每个token长度为3，所以被覆盖时分区数为3，否则为5。证明清晰直观。
混合整数规划（MIP）等价形式：引入二元变量\(m_{i,i+1}^W\)表示单词\(W\)中第\(i\)和第\(i+1\)个字符是否被同一token覆盖，将最小化partition转化为等价的最大化cover问题。关键观察是\(|W| = \text{partition} + \text{cover}\)，所以最小化partition等价于最大化cover。MIP包含了token的选择约束、覆盖一致性约束、不重叠约束等。
与加权最大覆盖（WMC）的关联：MIP自然松弛为加权最大覆盖问题——去掉不重叠约束和连续性约束后。WMC有经典的贪心\((1-1/e)\)近似算法GreedWMC。由于WMC的最优值不低于Tok的最优值，可以用GreedWMC的解作为GreedTok近似比的经验上界。
GreedTok算法：两步走——（1）选token集合\(\mathbf{S}\)：从\(\mathbf{S}=\emptyset\)开始，每轮贪心选择使MIP目标函数增量最大的token加入，直到\(|\mathbf{S}|=k\)；（2）编码：对给定文本，找出\(\mathbf{S}\)中所有匹配位置，按token被加入\(\mathbf{S}\)的顺序排列，逐个尝试覆盖，后加入的更长token可以覆盖之前的短token决策。算法复杂度选词为\(O(|\mathbf{T}|\cdot k \cdot \sum|W|)\)，实际通过lazy evaluation大幅加速；编码复杂度为\(O(|W|^2 \log|W|)\)。

训练策略¶

GreedTok的目标函数既不是子模的，也不是超模的（通过反例证明），所以标准的子模最大化近似分析不适用
但经验上，随着\(k\)增大，GreedTok的目标值与GreedWMC之比\(d_{\text{inst}}\)趋向1，实际中达到至少\(0.9(1-1/e)\)近似比

实验关键数据¶

压缩实验¶

数据集	指标 (avg tokens/word)	GreedTok	BPE	提升
UN (k=5000)	tokens/word	1.163	1.194	2.54%
arXiv (k=5000)	tokens/word	1.226	1.263	2.89%
wiki (k=10000)	tokens/word	1.283	1.301	1.37%
PubMed (k=10000)	tokens/word	1.206	1.225	1.52%

GreedTok平均优于BPE 2.88%，优于Unigram 3.43%。

预训练实验（1B参数LLM）¶

模型	Avg Accuracy	Wikitext bits/byte
BPEM (BPE)	62.0	0.7066
GTEP (GreedTok, 同比例数据)	62.5	0.7028
GTET (GreedTok, 同token数)	63.2	0.6989

GreedTok用同样token数的文本训练（DCLM约20%数据），在11个benchmark的平均accuracy和bits/byte上均优于BPE。GreedTok使整个DCLM数据集的token总数减少约18%。

消融实验要点¶

token集分析表明GreedTok的token集同时继承了BPE的高压缩率和Unigram的高token质量（更多完整单词、Unigram似然更接近）
近似比\(d_{\text{inst}}\)在\(k \geq 5000\)时接近0.95-1.0，说明GreedTok在实际NLP场景中几乎找到了最优解
在RefinedWeb上40次独立采样实验也验证了\(d_{\text{inst}} \to 1\)的趋势

亮点¶

视角新颖：把分词从"压缩/合并"视角转换为"覆盖"视角，建立了与顶点覆盖、加权最大覆盖等经典组合优化问题的清晰联系
NP-hard证明极其简洁：通过顶点覆盖的直接归约，比并发工作WBP(2024)的MAX-2SAT归约简单得多
MIP形式化的灵活性：可以自然地向目标函数中注入新的约束（如公平性、下游任务目标），这是BPE/Unigram做不到的
实际可用：C++实现+Python绑定+HuggingFace集成，编码速度700-800K words/s/thread，wiki 10K词表11分钟构建

局限性 / 可改进方向¶

GreedTok选词的理论复杂度\(O(|\mathbf{T}|\cdot k \cdot \sum|W|)\)高于BPE的\(O(k \cdot \sum|W|)\)，虽然lazy evaluation实际大幅加速，但对超大规模语料仍有计算瓶颈（14.3M unique words时34分钟/160GB RAM）
缺少GreedTok的正式近似比证明（仅有经验\(0.9(1-1/e)\)保证）
预训练实验仅限于1B参数模型和BPE对比，未验证更大模型或与Unigram的预训练对比
未测试低资源语言和多语言场景
编码速度虽可用但仍慢于BPE/tiktoken的优化实现

与相关工作的对比¶

vs BPE：BPE被限制在成对合并路径中，浪费词表容量在中间token上；GreedTok无此约束，压缩率提升~3%，预训练效果也更好
vs Unigram：Unigram自上而下剪枝会偏好整词token；GreedTok自下而上构建，兼具Unigram的token质量和BPE的压缩能力
vs WBP(2024)同期工作：WBP也证明了分词NP-hard，但通过MAX-2SAT归约，证明更复杂；本文的顶点覆盖归约更简洁直观
vs KV(2024)：KV证明BPE的底层合并问题APX-complete，但限于合并框架；本文形式化更一般

启发与关联¶

这篇论文展示了从组合优化角度重新审视NLP基础组件的价值。MIP形式化为在分词中注入额外目标（如下游任务信号、公平性约束）提供了自然框架。这个方法论思路——把深度学习pipeline中"约定俗成"的组件重新形式化为优化问题——可能对其他NLP/多模态基础组件也有启发，比如视觉tokenizer的设计。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从覆盖问题角度重新定义分词，视角独特且有深度
实验充分度: ⭐⭐⭐⭐ 压缩实验充分，预训练实验规模合理但仅限1B模型
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，证明简洁优雅，结构组织良好
价值: ⭐⭐⭐⭐ 为分词领域提供了新理论基础和实用算法，MIP框架有扩展潜力