跳转至

3-Model Speculative Decoding (PyramidSD)

会议: NeurIPS 2025
arXiv: 2510.12966
代码: 无
领域: LLM推理加速
关键词: Speculative Decoding, 推测解码, 多模型级联, 模糊接受准则, LLM推理优化

一句话总结

在标准的draft-target两模型推测解码的中间插入一个"qualifier"模型,构成三层金字塔式解码架构(PyramidSD),利用模型家族天然的熵梯度来分级过滤token,以模糊接受准则放宽匹配阈值,实现最高1.91×的速度提升(在RTX 4090上达到124 tok/s)。

背景与动机

推测解码(Speculative Decoding, SD)是当前加速LLM推理的主流方法之一:用一个小的draft模型快速生成候选token序列,再由大的target模型一次性验证。如果draft的预测和target一致,就批量接受。这种做法能显著提高吞吐量,但有一个根本矛盾:draft模型越小越快,但与target的分布差异也越大,导致接受率下降,加速效果打折扣

现有的模糊推测解码(Fuzzy SD)通过放宽接受阈值来缓解这个问题,但当draft和target的性能差距过大时,单阶段的放宽仍然不够。另外,像Cascade Speculative Drafting、Staged SD等多阶段方法需要额外训练或复杂的协调机制,实用性受限。

一个关键的观察是:现代LLM通常以"家族"形式发布(如Llama 3.2的1B/3B + Llama 3.1的8B),这些模型共享tokenizer和词表,天然具备不同尺度间的分布兼容性。这为在draft和target之间插入一个中间大小的模型提供了现成的条件。

核心问题

如何在不引入额外训练的前提下,利用现有模型家族中不同大小的模型来弥合draft和target之间的分布鸿沟,从而提高推测解码的接受率和吞吐量?

这个问题很实际:在消费级GPU(如RTX 4090,24GB显存)上部署大模型时,单token生成延迟很高(70B模型约100ms/tok),而用太小的draft模型又因接受率低导致加速有限。如何在有限显存内用好多个不同大小的模型成为关键。

方法详解

整体框架

PyramidSD的核心思想非常直接:在传统SD的draft模型(\(M_D\),如1B)和target模型(\(M_T\),如8B)之间,插入一个中间大小的qualifier模型(\(M_Q\),如3B),形成三层金字塔结构。解码过程分两个推测阶段:

  1. Draft → Qualifier阶段\(M_D\)每次生成\(\ell_D\)个候选token,由\(M_Q\)进行第一轮验证,通过模糊接受准则过滤
  2. Qualifier → Target阶段\(M_Q\)累积验证通过的\(\ell_Q\)个token后,将整批交给\(M_T\)做最终验证

这样就把一个大跨度的分布比对拆成了两个小跨度的分级比对,每一步的接受率都更高。

关键设计

  1. 模糊接受准则的两阶段扩展:标准SD要求draft的top预测严格等于target的预测(\(\tau=0\)),在三模型设置下qualifier完全多余。PyramidSD引入两个松弛阈值\(\tau_Q\)\(\tau_T\),分别控制draft→qualifier和qualifier→target的接受条件:\(\text{Div}(P_{M_Q}(x_t), P_{M_D}(x_t)) \leq \tau_Q\)\(\text{Div}(P_{M_T}(x_t), P_{M_Q}(x_t)) \leq \tau_T\)。关键洞察是\(\tau_Q \leq \tau_T\)效果最好——qualifier先严格筛选明显的错误预测,然后把相对靠谱的候选传给target,target端可以用更宽松的阈值来进一步提速。

  2. 辅助解码变体(PSDA):为了在速度和质量之间取得更稳定的平衡,PSDA用assisted decoding替代\(\tau_Q\)。当draft的token被\(M_Q\)拒绝时,不用标准SD的概率规则修正,而是直接从\(M_Q\)的分布中采样。这保证了输出质量的下限至少等于\(M_Q\),但加速稍低。PSDA的性能比SD提升最高1.44×,但方差很小,适合生产环境。

  3. 自然熵梯度的利用:论文实验发现1B、3B、8B模型在token预测上呈现系统性的熵梯度:1B的预测熵分布接近均匀(不确定性高),3B居中偏锐利,8B则高度集中在少数高置信token上。qualifier恰好处于这个梯度的中间位置,既能识别draft的低质量预测并拒绝,又比target快得多。这个分析说明PyramidSD不是凑巧有效,而是利用了模型缩放的内在特征。

损失函数 / 训练策略

PyramidSD不需要任何额外训练,直接使用现成的模型家族(如Llama 3.2 1B/3B + Llama 3.1 8B的instruction-tuned版本),这是其最大的实用优势之一。只需要模型共享tokenizer和词表即可。

实验关键数据

实验在RTX 4090上进行,使用CSQA评测集,模型为LLaMA-3.2-1B (draft) / LLaMA-3.2-3B (qualifier) / LLaMA-3.1-8B (target)。

方法 生成速度 (tok/s) CSQA分数 相比SD加速
SD (标准) ~65 69.58±2.20 1.00×
FSD (模糊SD) ~83 ~70.03 (avg) ~1.28×
PSDA (辅助解码) ~94 ~70.0 最高1.44×
PSDF (模糊变体) ~124 ~70.0 最高1.91×

PSDF在最优配置(\(\tau_T=0.5, \tau_Q=0.4, \ell_Q=25\))下达到约124 tok/s的峰值速度。

消融实验要点

  • 推测长度比例\(\ell_D\)设为约\(\ell_Q\)的一半时效果最佳,最优比例在1:2到1:3之间。盲目增大\(\ell_D\)反而因错误累积导致接受率骤降
  • 阈值组合\(\tau_Q \leq \tau_T\)的配置一致性最好。过大的\(\tau_T\)(>0.5)会劣化质量但不成比例地提速;中等阈值+中等长度的组合往往优于极端配置
  • 非单调现象:更激进的推测(更高阈值、更长序列)并不总是更快,存在"拒绝级联"效应——过多低质量token传递到后续阶段会被连续拒绝,反而浪费计算
  • PSDF vs PSDA稳定性:PSDF速度峰值更高但标准差大(因为两阶段模糊接受的误差会乘积放大),PSDA方差始终很低
  • PSDA的CSQA分数在不同阈值下保持稳定(68.55~70.73),PSDF则波动较大(63.50~72.63)

亮点

  • 零训练开销:直接利用现有模型家族,无需fine-tune或蒸馏,插即用
  • 理论分析清晰:吞吐量公式的推导将两个推测阶段解耦为嵌套的速度计算,直观展示了\(\ell_D, \ell_Q, \tau_Q, \tau_T\)四个超参的交互关系
  • 熵梯度分析:用实证数据验证了不同scale模型间确实存在系统性的熵差异,为三模型架构提供了基础性解释,不只是"多加一个模型碰碰运气"
  • 两种变体覆盖不同场景:PSDA适合需要稳定性的生产环境,PSDF适合追求极致速度的离线批处理场景
  • 显存考虑:1B+3B+8B总共约12B参数,在24GB显存的RTX 4090上可行(通过量化等策略)

局限性 / 可改进方向

  • 评测过于单一:仅在CSQA一个数据集上评测,缺乏代码生成、长文本、多轮对话等更多样化的任务验证
  • 模型家族依赖:要求draft/qualifier/target共享tokenizer和词表,对于跨家族或不同分词器的模型组合不适用
  • 超参调优复杂:四个超参(\(\tau_Q, \tau_T, \ell_D, \ell_Q\))的搜索空间大,最优配置因任务而异,增加了部署难度
  • 显存开销:同时加载三个模型增加显存压力,在更大scale的模型上(如70B target)可能不现实
  • PSDF质量波动:模糊变体在追求极致速度时质量不稳定,实际部署需要权衡
  • 缺乏自适应调参:作者在未来工作中提到了动态调整阈值和推测长度的自适应控制器,这是明确的改进方向
  • 仅评测了greedy/sampling:未与tree-based验证(如SpecInfer)或EAGLE等方法直接对比

与相关工作的对比

PyramidSD Fuzzy SD Cascade SD EAGLE/Medusa
需要训练
模型数量 3 2 多个 1+辅助头
加速比(vs SD) 最高1.91× ~1.28× 未直接对比 与方法正交
质量控制 阈值+分级过滤 阈值 级联验证 置信度估计
适用范围 同家族模型 通用 需定制训练 需训练辅助头

与Fuzzy SD的核心区别在于:FSD在一个大跨度上做模糊放宽,而PyramidSD把大跨度拆成两个小跨度。与Cascade SD的区别在于PyramidSD不需要额外训练。与EAGLE/Medusa等方法在原理层面正交,可以结合使用。

启发与关联

  • 分级验证思想可推广到更多层(4+模型),但需要关注显存开销和收益递减
  • 自适应阈值控制器的想法值得深入:可以根据实时的接受率和熵分布动态调整\(\tau\)\(\ell\),在不同难度的context段落上采用不同策略
  • 这篇论文的"用中间模型桥接分布差距"思路在模型蒸馏(progressive distillation)中也有类似思想,可以借鉴
  • 可与量化推理(如GPTQ/AWQ)结合:qualifier模型可以是target的量化版本而非独立模型,这样不需要模型家族的约束

评分

  • 新颖性: ⭐⭐⭐ 三模型级联的想法直觉上很自然,创新在于将fuzzy SD扩展到多阶段并严谨分析了加速条件
  • 实验充分度: ⭐⭐ 仅一个数据集(CSQA)、一组模型家族(LLaMA),超参消融虽然细致但任务多样性不足
  • 写作质量: ⭐⭐⭐⭐ 公式推导清楚,动机-方法-实验的逻辑链完整,熵梯度分析增加了说服力
  • 价值: ⭐⭐⭐ 作为一种即插即用的加速方案有实用价值,但受限于同家族模型的要求和单一评测,影响力可能有限