Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling¶
会议: ACL 2025 (Outstanding Paper)
arXiv: 2504.15754
代码: 无
领域: 模型压缩 / 高效推理 / 投机解码
关键词: Token Recycling, 投机解码, 邻接矩阵, BFS树构建, 无训练加速
一句话总结¶
提出Token Recycling——一种无需额外训练的投机解码方法,将解码过程中产生的候选token存入邻接矩阵,通过BFS算法构建draft tree并用tree attention验证,仅需<2MB额外存储即在所有规模LLM上实现约2倍加速,超越现有无训练方法30%和有训练方法25%。
背景与动机¶
LLM参数规模的快速增长使推理延迟成为核心瓶颈。投机解码(speculative decoding)通过"猜测-验证"范式提供无损加速,但现有方法要么需要额外的draft模型(需训练),要么依赖检索库(存储大、检索慢、适应性差)。关键洞察:解码过程中被拒绝的候选token虽然在当前步骤不正确,但高概率会在未来序列中出现——这些"废弃"token就是可以回收利用的"宝藏"。
核心问题¶
如何设计一种无训练、低存储、高适应性的投机解码方法,利用解码过程中"自然产生"的候选token来加速后续推理?
方法详解¶
整体框架¶
Token Recycling维护一个轻量级邻接矩阵,记录token之间的后继关系。在每步解码中: 1. 收集:将当前步骤中被采样但未被选中的候选token存入邻接矩阵 2. 构建:从当前token出发,在邻接矩阵上执行BFS搜索,构建包含多条可能路径的draft tree 3. 验证:通过tree attention一次性验证draft tree中的所有路径 4. 更新:验证后新产生的候选token再次更新邻接矩阵
关键设计¶
- 邻接矩阵存储
- 矩阵大小为词表大小×k(k为每个token保留的最大后继数)
- 存储每个token最可能的后继token及其概率
- 仅需<2MB存储(对比检索库方法可能需要GB级别)
-
随解码过程动态更新,自然适应当前任务/领域
-
BFS树构建
- 从当前已接受的token出发,在邻接矩阵中做广度优先搜索
- 每层展开概率最高的若干后继节点
- 生成的draft tree覆盖多条并行猜测路径
-
树的深度和宽度可根据计算预算灵活调整
-
Tree Attention验证
- 将整棵draft tree通过一次前向传播送入目标LLM
- 使用特殊的tree attention mask确保因果性
- 接受与目标LLM分布一致的token路径(无损保证)
训练策略¶
无需任何训练——完全在推理时自组织。邻接矩阵从零开始,随解码过程逐步丰富。
实验关键数据¶
| 对比方法 | Token Recycling优势 |
|---|---|
| vs 无训练方法(检索/n-gram) | +30% 加速比 |
| vs 有训练方法(draft model) | +25% 加速比 |
| 存储开销 | <2MB(极低) |
| 所有LLM规模 | 均实现~2x加速 |
消融实验要点¶
- 邻接矩阵在解码100+ token后即收敛到有效状态
- BFS树的宽度和深度存在最优平衡点——太宽浪费验证计算,太深匹配概率低
- 方法对不同任务类型(对话、代码、翻译)均有效,因为邻接矩阵自适应更新
亮点¶
- "回收废弃token"的洞察极为简洁优雅:解码过程中自然产生的候选token包含丰富的next-token概率信息,但一直被白白丢弃。这篇论文将这些"垃圾"变为加速推理的"宝藏"
- 零训练+极低存储:<2MB邻接矩阵即可实现2x加速,对比需要额外训练draft model或维护大型检索库的方法,实用性大幅提升
- 自适应性强:邻接矩阵随解码过程在线更新,自然适应当前上下文、任务和领域,无需预构建领域特定的检索库
- 与tree attention的完美结合:BFS构建的多路径draft tree通过tree attention高效并行验证
局限性 / 可改进方向¶
- 对话开始时邻接矩阵为空,需要"冷启动"若干步
- 邻接矩阵基于token级别的局部后继关系,无法捕捉更长距离的依赖
- 在极度开放性生成(高温度采样)时,token复现率可能降低,影响加速效果
- 未探索与基于模型的投机解码方法的结合
与相关工作的对比¶
- vs Medusa/EAGLE等draft-model方法:后者需要额外训练小模型作为drafter;Token Recycling完全无训练,更通用
- vs 检索增强投机解码(REST等):后者需构建大型检索库;Token Recycling仅需<2MB,且自适应更新
- vs N-gram匹配方法:后者依赖静态n-gram表;Token Recycling的邻接矩阵动态更新,适应性更强
启发与关联¶
- 与NSA(Native Sparse Attention)的共同主题:充分利用"已有计算"的副产品——NSA利用压缩注意力分数做块选择,Token Recycling利用被拒绝的候选token做未来猜测
- 邻接矩阵的在线学习思路可迁移到其他需要预测模式的场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "回收废弃token"的洞察新颖且直觉,方法简洁有力
- 实验充分度: ⭐⭐⭐⭐ 多规模LLM验证,但部分细节需更多消融
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,结构合理
- 价值: ⭐⭐⭐⭐⭐ 即插即用的推理加速方法,极高实用价值