Broken Tokens: Your Language Model Can Secretly Handle Non-Canonical Tokenization¶
会议: NeurIPS 2025
arXiv: 2506.19004
代码: 有
领域: LLM / Tokenization
关键词: 非标准分词, 字符级, 鲁棒性, 嵌入空间, 词汇攻击
一句话总结¶
揭示 LLM 能秘密处理非标准分词(如将"Hello"拆为"He"+"llo"而非标准的"Hello"整词token)——即使输入的 token 序列与训练时不同,模型表现出惊人的鲁棒性,且这种能力来自嵌入空间中子词嵌入的线性组合近似整词嵌入的特性。
研究背景与动机¶
-
领域现状:现代 LLM 使用 BPE/WordPiece 等子词分词器,训练和推理使用相同的标准分词。但对抗攻击、多语言混合、OCR 噪声等场景可能产生非标准分词。
-
现有痛点:
- 假设 LLM 只能处理训练时的标准分词序列
- 非标准分词(如将一个词拆成更小的片段)被认为会导致性能崩溃
-
对 LLM 分词鲁棒性缺乏系统性理解
-
核心矛盾:LLM 是否真的如此脆弱——必须收到精确的标准 token 序列才能工作?如果不是,这种鲁棒性从何而来?
-
本文要解决什么? 系统性地测试和解释 LLM 在非标准分词下的行为。
-
切入角度:系统性地将标准 token 随机拆分为子 token,在多种任务上测试模型性能变化,并从嵌入空间的几何结构解释鲁棒性来源。
-
核心 idea 一句话:LLM 的嵌入空间具有"子词线性可加性"——拆分 token 的嵌入序列经过几层 Transformer 后能近似重建标准 token 的表示。
方法详解¶
整体框架¶
实验设计:标准分词的输入 → 按不同策略拆分成非标准 token 序列 → 送入未修改的 LLM → 测量输出质量下降幅度。分析:检查嵌入空间中拆分 token 与原始 token 的表示距离。
关键设计¶
- 非标准分词策略:
- 做什么:系统性地生成不同类型的非标准分词
- 核心思路:(a) 随机拆分——将每个 token 在随机位置拆成两个子 token;(b) 字符级——将所有词拆到单字符级别;(c) 最大/最小子词——用不同的贪心策略拆分
-
设计动机:不同拆分策略测试不同程度的偏离,从轻度到极端
-
嵌入空间分析:
- 做什么:解释鲁棒性的来源
- 核心思路:测量拆分子 token 经过 k 层 Transformer 后的隐藏状态与标准 token 隐藏状态的余弦相似度。发现在中间层即可达到高度相似
-
设计动机:如果拆分后的序列经过几层就能"修复"回标准表示,则解释了为什么最终输出不受太大影响
-
跨任务评估:
- 做什么:在多种 NLP 任务上验证鲁棒性
- 核心思路:测试包括 text completion、QA、classification、translation 等任务,使用 GPT-2、LLaMA、Mistral 等模型
- 设计动机:确认鲁棒性不是特定任务或模型的偶然现象
损失函数 / 训练策略¶
- 无需训练——纯测试时分析
实验关键数据¶
主实验¶
各模型在随机拆分下的性能保留率:
| 模型 | 标准分词 | 随机拆分(50%) | 字符级 | 性能保留率 |
|---|---|---|---|---|
| GPT-2 | 100% | ~85-90% | ~70-80% | 高 |
| LLaMA-7B | 100% | ~90-95% | ~75-85% | 更高 |
| Mistral-7B | 100% | ~90-95% | ~80-85% | 更高 |
消融:嵌入空间对齐¶
| 层深度 | 拆分 token vs 标准 token 余弦相似度 |
|---|---|
| 第 0 层(输入嵌入) | ~0.6 |
| 第 4 层 | ~0.85 |
| 第 8 层 | ~0.92 |
| 最后一层 | ~0.95 |
关键发现¶
- LLM 对非标准分词有惊人的鲁棒性:随机拆分 50% 的 token 仅导致约 5-15% 的性能下降
- 更大模型更鲁棒:LLaMA-7B 比 GPT-2 (124M) 保留更多性能
- 嵌入修复发生在早期层:仅需 4-8 层 Transformer,拆分 token 的表示就与标准表示高度对齐
- 字符级极端拆分仍可接受:即使完全拆到字符级,模型仍能完成大部分任务
- 安全启示:基于分词操纵的对抗攻击可能不如预期有效
亮点与洞察¶
- "嵌入空间的子词线性可加性"是一个有理论价值的发现——暗示 Transformer 的早期层充当了一种隐式的"重新分词"机制
- 对稳健 LLM 部署有直接指导:即使分词器出错(如 OCR 噪声、恶意输入),模型也不会灾难性失败
- 对对抗鲁棒性研究的反思:很多基于 token 操纵的攻击可能被高估了
局限性 / 可改进方向¶
- 仅测试了拆分(将大 token 分解为小 token),未测试合并(将相邻 token 合并)
- 数学推理等对精确 token 依赖更强的任务可能表现不同
- 嵌入对齐分析是观察性的,缺乏严格的理论解释
- 未测试在代码生成等对语法敏感的任务上非标准分词的影响
- 分析局限于英语和拉丁字母,非拉丁文字(如中文、阿拉伯文)的鲁棒性可能不同
相关工作与启发¶
- vs 对抗 NLP 攻击研究:这些工作假设分词操纵能有效攻击 LLM,本文挑战了这一假设
- vs Character-level LLM:ByT5 等字符级模型从头训练为字符级,本文展示标准 BPE 模型"秘密地"也能处理字符级输入
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 反直觉的发现,挑战了分词对 LLM 至关重要的假设
- 实验充分度: ⭐⭐⭐⭐ 多模型、多任务、多拆分策略、嵌入分析
- 写作质量: ⭐⭐⭐⭐ 清晰直观
- 价值: ⭐⭐⭐⭐ 对 LLM 鲁棒性和安全性研究有重要启示