跳转至

Lossless Vocabulary Reduction for Auto-Regressive Language Models

会议: ICLR 2026
arXiv: 2510.08102
代码: 无
领域: NLP / 语言模型 / 概率方法
关键词: Vocabulary Reduction, Auto-Regressive LM, Tokenization, Model Ensemble, Maximal Common Vocabulary

一句话总结

提出无损词表缩减(LVR)的理论框架,通过嵌套分词(nested tokenization)将任意自回归语言模型精确转换为使用任意子词表的等价模型,并基于最大公共词表(MCV)实现不同分词方案语言模型之间的高效集成,在 GSM8K、MATH、翻译等多个任务上验证了方法的有效性。

研究背景与动机

领域现状:分词(Tokenization)是语言模型的核心组件,BPE、SentencePiece、Unigram 等不同分词算法被广泛使用。每个语言模型拥有独立的词表 \(V\),自回归模型在此词表上逐 token 预测 next-token 分布 \(p(v_t | v_{<t})\) 来生成文本。

现有痛点:不同语言模型的词表通常不兼容(如 Qwen 使用 151,643 个 token、Falcon 使用 131,072 个 token),导致它们的 next-token 分布定义在完全不同的概率空间上。这使得模型集成(ensemble)、跨模型知识蒸馏等需要在 token 分布层面协作的技术无法直接应用于不同词表的模型。

核心矛盾:已有的解决方案要么局限于同词表模型的集成,要么采用 byte-level reduction(将所有模型退化到字节级词表),前者限制了模型选择范围,后者因词表过小导致生成序列极长、效率极低。缺少一种既能保证精度无损、又能在效率与通用性之间取得平衡的词表转换框架。

本文目标:如何将任意自回归语言模型无损地转换为使用任意子词表的等价模型?进而,如何找到多个模型间的最优公共词表,使之在保证无损性的同时最大化生成效率?

切入角度:从概率论出发,将词表缩减形式化为嵌套分词下的分布等价问题。论文证明了只要目标子词表满足覆盖条件,存在唯一的等价 next-token 分布,并给出了递归构造算法。

核心 idea:通过嵌套分词的精确概率分解,实现从大词表到任意小词表的无损转换,配合最大公共词表(MCV)统一不同模型的输出空间以实现集成。

方法详解

整体框架

给定自回归语言模型 \(M\)(词表 \(V\))和目标子词表 \(V_{\text{sub}}\),LVR 框架将 \(M\) 转换为使用 \(V_{\text{sub}}\) 的等价模型 \(M'\),使得对任意文本 \(x\)\(P_M(x) = P_{M'}(x)\)。核心构造路径:

  1. 嵌套分词:文本先按 \(V\) 分词,再将每个 token 的字节串按 \(V_{\text{sub}}\) 重新分词
  2. 概率递归分解:将被拆分 token 的概率精确分配到子词表上的多步生成路径
  3. K-LVR 近似算法:通过 top-\(K\) 截断和相对覆盖集(relative cover)缓存实现高效推理
  4. MCV 集成:多模型的词表取交集形成最大公共词表,各模型缩减至此公共词表后集成

关键设计

  1. 嵌套分词与精确概率分解(Nested Tokenization & Exact Decomposition):

    • 功能:将大词表上的 next-token 分布精确转换为小词表上的等价分布
    • 核心思路:定义嵌套分词 \(\tau_{V \to V_{\text{sub}}}\),将 \(V\) 中每个 token 的字节串用 \(V_{\text{sub}}\) 重新分词。对于被"拆分"的 token(如 \(V\) 中的 "abc" 拆为 \(V_{\text{sub}}\) 中的 "a"+"b"+"c"),需要将其概率精确传播到多步生成路径。论文给出了递归分解公式:在中间步骤生成时,不仅要分配被拆分 token 的概率,还要正确考虑原本就以相同前缀开头的其他 token 的贡献
    • 设计动机:直观的"按前缀切割概率"(Naive Restriction)会破坏概率的归一化性质,需要通过相对覆盖集(relative cover \(C_{V, V_{\text{sub}}}\))来精确计算每个子词表 token 在特定上下文下的条件概率
  2. 最大公共词表(Maximal Common Vocabulary, MCV):

    • 功能:为多个不同词表的模型构造最优的公共目标词表,用于集成
    • 核心思路:给定多个模型的词表 \(V_1, V_2, \ldots, V_n\),MCV 定义为包含所有词表公共 token 的最大集合,通过交集操作和 BPE merge 规则的约束来构造。所有模型无损缩减至 MCV 后,在相同的输出空间中进行分布平均或加权混合
    • 设计动机:相比 byte-level reduction(公共词表仅 256 个字节),MCV 保留了模型间共享的高频子词,大幅减少生成序列长度。例如 Qwen2.5-3B 与 Falcon3-7B 的 MCV 包含数千个公共 token,远大于 256 字节级词表
  3. K-LVR 近似推理算法(Algorithm 2):

    • 功能:在推理时高效计算缩减后模型的 next-token 分布
    • 核心思路:理论上的精确 LVR(Algorithm 1)需要遍历原始词表 \(V\) 中所有 token,复杂度与 \(|V|\) 成正比。Algorithm 2 通过top-\(K\) 截断只考虑概率最高的 \(K\) 个 token,并缓存相对覆盖集的中间计算结果来加速。实验表明相对覆盖集大小在前几步后稳定在约 \(K\) 附近,不随序列长度增长
    • 设计动机:实际应用中需要在效率与精度间权衡。\(K=1\) 即可支持贪心解码的精确模拟;\(K \geq 250\) 才能较好地近似原模型的完整分布(用于随机采样);集成场景下 \(K \geq 10\) 即可用于贪心解码

损失函数 / 训练策略

  • 无需任何额外训练:LVR 是纯粹的推理时概率变换算法,不涉及参数学习或梯度更新
  • 理论保证:在精确 LVR(Algorithm 1)下,转换满足文本级别的分布等价性 \(P_M(x) = P_{M'}(x)\),这是一个严格的数学定理(存在性、唯一性、构造性证明完整)
  • 近似策略:K-LVR 通过 top-\(K\) 截断引入近似,\(K\) 越大越接近精确 LVR,\(K=300\) 在论文实验中能以极小的精度损失覆盖几乎所有场景
  • 集成策略:各模型缩减至 MCV 后,直接对 next-token 分布进行算术平均,无需额外的集成权重学习

实验关键数据

主实验

在 GSM8K 和 MATH 基准上验证词表缩减的无损性和集成效果(greedy decoding,\(K=300\)):

模型 / 配置 GSM8K Acc (%) MATH Acc (%) 说明
Qwen2.5-3B(原始词表) 79.1 42.4 原始模型基线
Qwen2.5-3B(K-LVR, N-bytes ≥ 3) ~79 ~42 无损性验证:与原始相当
Falcon3-7B(原始词表) 77.9 30.2 原始模型基线
Falcon3-7B(K-LVR, N-bytes ≥ 3) ~78 ~30 无损性验证:与原始相当
Naive Restriction(Qwen) 大幅下降 大幅下降 朴素截断方法严重失效
MCV Ensemble(Qwen + Falcon) 82.6 44.2 MCV 集成显著超越两个单模型
Byte-level Ensemble ~80 ~41 字节级集成效率低、效果次优

消融实验

关于超参数 \(K\) 对 K-LVR 近似精度的影响(Qwen2.5-3B 模型):

超参数 \(K\) Greedy Acc (GSM8K) Random Sampling 分布距离 说明
\(K = 1\) ~79%(与原始一致) 较大 贪心解码仅需 top-1
\(K = 10\) ~79% 中等 集成贪心已足够
\(K = 100\) ~79% 较小 开始接近精确分布
\(K = 250\) ~79% 极小 随机采样已足够
\(K = 300\) ~79% 可忽略 论文默认设置

关键发现

  • 无损性验证:K-LVR 在 \(N\)-bytes 缩减(\(N \geq 3\))下,GSM8K 和 MATH 精度与原始模型一致,证明了理论保证在实践中成立
  • Naive Restriction 严重失败:直接按子词表截断概率分布会导致精度崩溃,说明精确的概率分解不可或缺
  • MCV 集成有效:跨词表集成在多个模型对(Qwen+Falcon、Qwen+OLMo2、OLMo2+Falcon、Phi2+Llama3.1、Phi2+Yi1.5)上一致优于单模型,在翻译任务(En↔Fr、En↔De)上 BLEU 也有提升
  • 计算开销稳定:相对覆盖集大小在前几步后稳定在约 \(K\),不随序列长度增长,推理开销实际上是常数级
  • 2-bytes 缩减的特殊问题:初始实验中 Falcon3-7B 的 2-bytes 缩减精度下降,后发现是分词实现中的 corner case bug,修复后精度恢复正常

亮点与洞察

  • 理论贡献卓越:这是一个数学上完整的框架——给出了词表缩减问题的存在性、唯一性和构造性证明,将看似只能靠启发式解决的问题转化为有严格保证的算法,四位审稿人一致认可理论的严谨性
  • 打破词表壁垒:长期以来,不同分词方案的 LLM 被视为"不可互操作的",本工作从根本上消除了这一障碍,为模型集成、知识蒸馏、统一评测等开辟了道路
  • 无需训练的推理时方法:不像 learned vocabulary reduction 需要重新训练,LVR 可以直接应用于任何已有的预训练模型,即插即用
  • MCV 的设计精巧:通过交集 + BPE merge 规则约束构造的最大公共词表,在 byte-level(效率极低)和完整词表(不兼容)之间找到了最优平衡点
  • K-LVR 的实用性:top-\(K\) 近似将理论框架转化为可部署的实际算法,\(K\) 的选择有清晰的指导原则(贪心 \(K=1\),采样 \(K \geq 250\)

局限与展望

  • 生成效率下降:缩减到更小词表后,同一文本的 token 序列变长(如 MCV 词表 < 原始词表),增加推理步数和延迟,尤其在公共词表很小的模型对上效率损失显著
  • K-LVR 非严格无损:Algorithm 2 引入 top-\(K\) 截断,理论上不再保证精确的分布等价性,且缺乏近似误差的理论上界(审稿人 zQB1 指出此问题)
  • 实验模型规模有限:当前实验主要在 3B-13B 模型上验证,更大规模模型(70B+)的效果和计算开销需要进一步测试
  • 仅限自回归模型:框架依赖自回归生成的顺序性,无法直接扩展到 BERT 类双向模型或扩散模型等其他生成范式
  • 公共词表可能退化:如果两个模型的分词方案差异极大(如 byte-level vs. word-level),MCV 可能接近字节级,削弱效率优势
  • 缺少与 learned 方法的对比:虽然目标不同,但审稿人建议与训练式词表压缩方法在效率方面做对比,能更全面地定位本方法的优势

相关工作与启发

  • 分词算法:BPE(Sennrich et al., 2016)、SentencePiece、Unigram LM 等不同分词方案各有优劣,本文为跨分词协作提供了统一解决方案,让分词选择不再构成模型协作的障碍
  • Byte-level reduction:将所有模型退化到字节级词表是最简单的公共化方案,但效率极低;LVR 可视为 byte-level reduction 的理论推广和效率改进
  • 模型集成:传统集成要求共享输出空间,本文通过 MCV 突破了这一限制,为异构 LLM 集成开辟了新方向
  • 跨词表知识蒸馏:现有工作使用启发式方法对齐师生模型的词表,缺乏理论保证;LVR 框架可原则性地应用于蒸馏场景,但需要解决并行推理效率问题
  • 启发:能否预先设计一种"通用词表"使得主流 LLM 的 MCV 最大化?这可能成为未来分词标准化的理论基础

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次给出词表缩减的完整理论框架,存在性+唯一性+构造性证明,MCV 概念新颖实用
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多个模型对和多种任务,敏感性分析充分;但模型规模受限、缺少 wall-clock 时间对比
  • 写作质量: ⭐⭐⭐⭐ 理论部分严谨清晰,示例直观;审稿人指出部分展示可改进(已在修改版中加入可视化)
  • 价值: ⭐⭐⭐⭐ 打破词表壁垒的方向性贡献,对模型集成、蒸馏、评测有广泛影响;实际部署仍需工程适配

title: >- [论文解读] Lossless Vocabulary Reduction for Auto-Regressive Language Models description: >- [ICLR 2026][词表缩减] 建立了一个无损词表缩减的理论框架,能够将任意自回归语言模型高效转换为使用任意小词表的等价模型,且不损失精度,从而实现不同分词方案的语言模型之间的高效协作(如模型集成)。 tags: - ICLR 2026 - 词表缩减 - 自回归语言模型 - 分词 - 模型集成 - 无损转换


Lossless Vocabulary Reduction for Auto-Regressive Language Models

会议: ICLR 2026
arXiv: 2510.08102
代码: 无
领域: NLP / 语言模型
关键词: 词表缩减, 自回归语言模型, 分词, 模型集成, 无损转换

一句话总结

建立了一个无损词表缩减的理论框架,能够将任意自回归语言模型高效转换为使用任意小词表的等价模型,且不损失精度,从而实现不同分词方案的语言模型之间的高效协作(如模型集成)。

研究背景与动机

分词(Tokenization)是语言模型开发中的核心环节之一。自回归语言模型逐 token 生成文本——即给定前面的 token 序列,预测下一个 token 的概率分布——因此分词方式直接影响模型的生成效率和质量。

核心矛盾:每个语言模型都有自己的词表(vocabulary),不同模型的词表通常不同(如 GPT 使用 BPE、LLaMA 使用 SentencePiece 等)。这导致了一个根本性的问题——不同词表的语言模型无法直接在 next-token 分布层面进行协作

具体场景:模型集成是提升语言模型性能的经典方法,但传统集成方法要求模型共享相同的输出空间。当两个模型使用不同的分词方案时,它们的 next-token 分布定义在完全不同的词表上,无法直接平均或混合。现有解决方案要么限制只能集成同词表的模型,要么采用有损的近似转换,效果有限。

本文切入角度:如果能将任何语言模型"无损地"转换为使用更小词表的等价模型,那么不同模型可以先转换到一个共同的最小公共词表,再进行集成——这就是本文的核心idea。

方法详解

整体框架

  • 输入:任意自回归语言模型 M(带有词表 V)和目标词表 V'(V' ⊂ V 或 V' 是 V 的子集)
  • 输出:等价模型 M',使用词表 V',且对任意文本 x 有 P_M(x) = P_M'(x)
  • 核心约束:转换是无损的——新模型在字符串级别的概率分布与原模型完全一致

关键设计

  1. 词表缩减的理论框架

    • 核心思路:将一个使用大词表 V 的模型转换为使用小词表 V' 的模型,关键在于处理那些在大词表中存在但在小词表中不存在的 token。
    • 设计动机:假设大词表中的某个 token "abc" 不在小词表 V' 中,但 "a"、"b"、"c" 都在 V' 中。那么在新模型 M' 中,原来一步生成 "abc" 的概率需要被"分配"到先生成 "a",再生成 "b",再生成 "c" 的多步序列中。
    • 关键定理:论文证明了这种分配可以精确无损地完成——只要目标词表 V' 能表示所有可能的字符串(即 V' 的覆盖性条件),就存在唯一的等价 next-token 分布。
  2. 条件概率的精确分解

    • 对于被"拆分"的 token,需要将其概率精确地重新分布到多步生成路径上
    • 关键挑战:在中间步骤生成时,模型不仅需要分配被拆分 token 的概率,还需要考虑原本就以这些子序列开头的其他 token 的概率
    • 论文给出了递归分解的精确公式,保证概率性质(归一化、非负性)
  3. 最大公共词表(Maximal Common Vocabulary)

    • 核心概念:给定多个模型的词表 V₁, V₂, ..., Vₙ,定义它们的"最大公共词表"——即所有词表的"公共子集"在某种意义下的最大集合
    • 应用:所有模型都可以无损缩减到这个公共词表上,然后在相同的输出空间中进行集成
    • 设计动机:最大公共词表保证了信息损失最小化,因为它保留了所有模型都能直接表达的最大 token 集合

损失函数 / 训练策略

  • 无需训练:本文的关键贡献是理论框架和精确的概率转换公式,不涉及额外训练
  • 词表缩减是一个推理时的确定性算法,不需要参数学习
  • 转换涉及的计算开销主要在于被拆分 token 的概率重分配,复杂度与被移除 token 的数量和最大长度相关

实验关键数据

主实验

论文在模型集成任务上验证了框架的有效性,使用不同分词方案的语言模型进行集成。

数据集 指标 本文方法 直接集成(需同词表) 单模型
语言建模基准 Perplexity 等价于理论最优 仅限同词表 较高PPL
文本生成质量 多指标 有效提升 不可行(跨词表) 基线

消融实验

配置 关键指标 说明
原始模型 PPL_orig 基线perplexity
缩减后模型 PPL_reduced 与原始完全一致(无损性验证)
缩减到最小词表 生成速度下降 token 数量增多但概率精确
跨词表集成 PPL下降 验证了不同分词模型可有效集成

关键发现

  • 完全无损:缩减后模型的字符串级概率与原模型完全一致,验证了理论保证
  • 跨词表集成可行:通过缩减到公共词表,成功实现了不同分词模型的集成
  • 集成效果显著:即使模型使用不同的分词方案,集成后的性能仍然显著优于单模型
  • 计算开销可控:虽然更小的词表意味着需要更多步来生成同样的文本,但概率计算本身的额外开销较小

亮点与洞察

  • 理论贡献突出:这是一个优雅的理论框架,给出了词表缩减问题的完整数学解——存在性、唯一性和构造性证明
  • 打破词表壁垒:长期以来,不同分词方案的模型被视为"不可比较的",本文打破了这一限制
  • 无需额外训练:词表缩减是纯粹的概率变换,不需要任何额外训练数据或计算
  • 开放新研究方向:模型集成只是一个应用,这个框架还可以用于跨模型知识蒸馏、统一评测等场景
  • 数学严谨性高:论文的定理和证明非常完整,符合理论工作的高标准

局限与展望

  • 生成效率下降:缩减到更小词表后,生成同样长度的文本需要更多的 token 步骤,增加了推理延迟
  • 实验规模有限:目前主要在中等规模的模型上进行验证,更大规模模型(如 70B+)上的效果和效率需要更多实验
  • 仅考虑自回归模型:框架是否可以扩展到非自回归模型(如 BERT 类)或其他生成范式(如扩散模型)
  • 实际部署困难:在实际系统中,缩减后的多步推理可能需要特殊的解码算法支持
  • 公共词表可能很小:如果两个模型的分词方案差异很大,公共词表可能退化到字符级,导致效率很低

相关工作与启发

  • 分词研究:BPE(Sennrich et al., 2016)、SentencePiece、Unigram 等分词算法各有优劣,本文为跨分词协作提供了统一方案
  • 模型集成:传统集成要求共享输出空间,本文突破了这一限制
  • 知识蒸馏:可以用本框架将大模型的知识"翻译"到使用不同词表的小模型
  • 概率论视角:本文本质上是在不同的概率空间之间建立精确的映射,与概率论中的测度变换有关联
  • 启发:是否可以设计一种"通用词表",使得所有模型都能高效地缩减到这个词表上?

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐

相关论文