Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling¶

会议: ACL 2025 (Outstanding Paper)
arXiv: 2504.15754
代码: 无
领域: 模型压缩 / 高效推理 / 投机解码
关键词: Token Recycling, 投机解码, 邻接矩阵, BFS树构建, 无训练加速

一句话总结¶

提出Token Recycling——一种无需额外训练的投机解码方法，将解码过程中产生的候选token存入邻接矩阵，通过BFS算法构建draft tree并用tree attention验证，仅需<2MB额外存储即在所有规模LLM上实现约2倍加速，超越现有无训练方法30%和有训练方法25%。

背景与动机¶

LLM参数规模的快速增长使推理延迟成为核心瓶颈。投机解码（speculative decoding）通过"猜测-验证"范式提供无损加速，但现有方法要么需要额外的draft模型（需训练），要么依赖检索库（存储大、检索慢、适应性差）。关键洞察：解码过程中被拒绝的候选token虽然在当前步骤不正确，但高概率会在未来序列中出现——这些"废弃"token就是可以回收利用的"宝藏"。

核心问题¶

如何设计一种无训练、低存储、高适应性的投机解码方法，利用解码过程中"自然产生"的候选token来加速后续推理？

方法详解¶

整体框架¶

Token Recycling维护一个轻量级邻接矩阵，记录token之间的后继关系。在每步解码中： 1. 收集：将当前步骤中被采样但未被选中的候选token存入邻接矩阵 2. 构建：从当前token出发，在邻接矩阵上执行BFS搜索，构建包含多条可能路径的draft tree 3. 验证：通过tree attention一次性验证draft tree中的所有路径 4. 更新：验证后新产生的候选token再次更新邻接矩阵

关键设计¶

邻接矩阵存储
矩阵大小为词表大小×k（k为每个token保留的最大后继数）
存储每个token最可能的后继token及其概率
仅需<2MB存储（对比检索库方法可能需要GB级别）
随解码过程动态更新，自然适应当前任务/领域
BFS树构建
从当前已接受的token出发，在邻接矩阵中做广度优先搜索
每层展开概率最高的若干后继节点
生成的draft tree覆盖多条并行猜测路径
树的深度和宽度可根据计算预算灵活调整
Tree Attention验证
将整棵draft tree通过一次前向传播送入目标LLM
使用特殊的tree attention mask确保因果性
接受与目标LLM分布一致的token路径（无损保证）

训练策略¶

无需任何训练——完全在推理时自组织。邻接矩阵从零开始，随解码过程逐步丰富。

实验关键数据¶

对比方法	Token Recycling优势
vs 无训练方法（检索/n-gram）	+30% 加速比
vs 有训练方法（draft model）	+25% 加速比
存储开销	<2MB（极低）
所有LLM规模	均实现~2x加速

消融实验要点¶

邻接矩阵在解码100+ token后即收敛到有效状态
BFS树的宽度和深度存在最优平衡点——太宽浪费验证计算，太深匹配概率低
方法对不同任务类型（对话、代码、翻译）均有效，因为邻接矩阵自适应更新

亮点¶

"回收废弃token"的洞察极为简洁优雅：解码过程中自然产生的候选token包含丰富的next-token概率信息，但一直被白白丢弃。这篇论文将这些"垃圾"变为加速推理的"宝藏"
零训练+极低存储：<2MB邻接矩阵即可实现2x加速，对比需要额外训练draft model或维护大型检索库的方法，实用性大幅提升
自适应性强：邻接矩阵随解码过程在线更新，自然适应当前上下文、任务和领域，无需预构建领域特定的检索库
与tree attention的完美结合：BFS构建的多路径draft tree通过tree attention高效并行验证

局限性 / 可改进方向¶

对话开始时邻接矩阵为空，需要"冷启动"若干步
邻接矩阵基于token级别的局部后继关系，无法捕捉更长距离的依赖
在极度开放性生成（高温度采样）时，token复现率可能降低，影响加速效果
未探索与基于模型的投机解码方法的结合

与相关工作的对比¶

vs Medusa/EAGLE等draft-model方法：后者需要额外训练小模型作为drafter；Token Recycling完全无训练，更通用
vs 检索增强投机解码（REST等）：后者需构建大型检索库；Token Recycling仅需<2MB，且自适应更新
vs N-gram匹配方法：后者依赖静态n-gram表；Token Recycling的邻接矩阵动态更新，适应性更强

启发与关联¶

与NSA（Native Sparse Attention）的共同主题：充分利用"已有计算"的副产品——NSA利用压缩注意力分数做块选择，Token Recycling利用被拒绝的候选token做未来猜测
邻接矩阵的在线学习思路可迁移到其他需要预测模式的场景

评分¶

新颖性: ⭐⭐⭐⭐⭐ "回收废弃token"的洞察新颖且直觉，方法简洁有力
实验充分度: ⭐⭐⭐⭐ 多规模LLM验证，但部分细节需更多消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰，结构合理
价值: ⭐⭐⭐⭐⭐ 即插即用的推理加速方法，极高实用价值