Broken Tokens: Your Language Model Can Secretly Handle Non-Canonical Tokenization¶

会议: NeurIPS 2025
arXiv: 2506.19004
代码: 有
领域: LLM / Tokenization
关键词: 非标准分词, 字符级, 鲁棒性, 嵌入空间, 词汇攻击

一句话总结¶

揭示 LLM 能秘密处理非标准分词（如将"Hello"拆为"He"+"llo"而非标准的"Hello"整词token）——即使输入的 token 序列与训练时不同，模型表现出惊人的鲁棒性，且这种能力来自嵌入空间中子词嵌入的线性组合近似整词嵌入的特性。

领域现状：现代 LLM 使用 BPE/WordPiece 等子词分词器，训练和推理使用相同的标准分词。但对抗攻击、多语言混合、OCR 噪声等场景可能产生非标准分词。
现有痛点：
假设 LLM 只能处理训练时的标准分词序列
非标准分词（如将一个词拆成更小的片段）被认为会导致性能崩溃
对 LLM 分词鲁棒性缺乏系统性理解
核心矛盾：LLM 是否真的如此脆弱——必须收到精确的标准 token 序列才能工作？如果不是，这种鲁棒性从何而来？
本文要解决什么？ 系统性地测试和解释 LLM 在非标准分词下的行为。
切入角度：系统性地将标准 token 随机拆分为子 token，在多种任务上测试模型性能变化，并从嵌入空间的几何结构解释鲁棒性来源。
核心 idea 一句话：LLM 的嵌入空间具有"子词线性可加性"——拆分 token 的嵌入序列经过几层 Transformer 后能近似重建标准 token 的表示。

实验设计：标准分词的输入 → 按不同策略拆分成非标准 token 序列 → 送入未修改的 LLM → 测量输出质量下降幅度。分析：检查嵌入空间中拆分 token 与原始 token 的表示距离。

非标准分词策略:
做什么：系统性地生成不同类型的非标准分词
核心思路：(a) 随机拆分——将每个 token 在随机位置拆成两个子 token；(b) 字符级——将所有词拆到单字符级别；(c) 最大/最小子词——用不同的贪心策略拆分
设计动机：不同拆分策略测试不同程度的偏离，从轻度到极端
嵌入空间分析:
做什么：解释鲁棒性的来源
核心思路：测量拆分子 token 经过 k 层 Transformer 后的隐藏状态与标准 token 隐藏状态的余弦相似度。发现在中间层即可达到高度相似
设计动机：如果拆分后的序列经过几层就能"修复"回标准表示，则解释了为什么最终输出不受太大影响
跨任务评估:
做什么：在多种 NLP 任务上验证鲁棒性
核心思路：测试包括 text completion、QA、classification、translation 等任务，使用 GPT-2、LLaMA、Mistral 等模型
设计动机：确认鲁棒性不是特定任务或模型的偶然现象

各模型在随机拆分下的性能保留率：

模型	标准分词	随机拆分(50%)	字符级	性能保留率
GPT-2	100%	~85-90%	~70-80%	高
LLaMA-7B	100%	~90-95%	~75-85%	更高
Mistral-7B	100%	~90-95%	~80-85%	更高