跳转至

Multi-Drafter Speculative Decoding with Alignment Feedback

会议: ACL 2026
arXiv: 2604.05417
代码: 有
领域: LLM效率
关键词: 推测解码, 多臂赌博机, 多草稿器, 对齐反馈, 推理加速

一句话总结

本文提出 MetaSD,一个将多个异构草稿器整合到推测解码中的统一框架,将草稿器选择建模为多臂赌博机问题,通过块散度(Block Divergence)奖励信号动态选择与目标 LLM 最对齐的草稿器,在黑盒和白盒配置下一致优于单草稿器方法。

研究背景与动机

领域现状:推测解码(Speculative Decoding)通过小模型(草稿器)预测未来 token、大模型并行验证来加速 LLM 推理。现有方法通过架构改进(EAGLE、Medusa)、知识蒸馏和树搜索验证等提高了接受率。

现有痛点:现有方法几乎全部依赖单一草稿器,但单个草稿器通常针对特定任务/领域训练,在分布外输入或动态用户查询上表现不佳。随着"专家模型集成"趋势的兴起(类似 LLM routing),单草稿器的局限变得更加突出。

核心矛盾:不同任务需要不同的草稿器,但在推理时无法提前知道哪个草稿器最适合当前输入。手动切换草稿器不可行,需要一个能自动适应的动态选择机制。

本文目标:设计一个多草稿器框架,能在推理过程中动态选择最优草稿器。

切入角度:推测解码天然提供了"对齐反馈"——草稿器预测与目标模型预测之间的匹配程度可以作为实时反馈信号。这与多臂赌博机问题完美对应:每个草稿器是一个臂,对齐反馈是奖励信号。

核心 idea:将多草稿器推测解码建模为多臂赌博机问题,提出块散度(Block Divergence)作为奖励信号(比传统的块效率更信息丰富、方差更低),用 UCB 算法动态平衡探索和利用来选择草稿器。

方法详解

整体框架

维护一个包含 \(K\) 个异构草稿器的池子。每个推测解码轮次中,用 UCB 算法选择一个草稿器执行一步草稿-验证-接受。基于接受结果计算块散度奖励,更新该草稿器的经验均值和置信区间。循环直到生成目标长度 \(B\) 的序列。

关键设计

  1. 块散度(Block Divergence)奖励:

    • 功能:提供比传统块效率更信息丰富的对齐反馈信号
    • 核心思路:\(r_{i,t}^{BD} = \frac{1}{N_{max}} \sum_{j=0}^{N_{max}-1} (1 - d_{TV}(p^{l(t)+j}, q_i^{l(t)+j}))\),即在一个草稿块的所有位置上计算目标模型和草稿器概率分布的 TV 距离平均值。相比块效率(只计算接受的 token 数),BD 在每个位置都提供连续的对齐信息,避免了二值化的信息损失
    • 设计动机:定理证明 BD 奖励的"反馈信号"\(R(r_i) = \frac{\Delta_i^2}{\max(\text{Var}[r_i], \text{Var}[r_{i^*}])}\) 在大多数情况下大于 BE 奖励。更强的反馈信号意味着赌博机算法能更快更准确地识别最优草稿器。实证也验证 BD 的方差更低、均值差异更大
  2. 停止时间遗憾目标:

    • 功能:为多草稿器推测解码定义合适的优化目标
    • 核心思路:\(\text{Reg}(\pi, B) = \mathbb{E}[\tau(\pi, B)] - \mathbb{E}[\tau(\pi^*, B)]\),即最小化生成 \(B\) 个 token 所需的推测解码轮次数与最优策略的差距。引理证明这等价于最大化接受 token 数,与推测解码目标一致
    • 设计动机:标准 MAB 遗憾(最大化累积奖励)不直接对应推测解码效率——在推测解码中,轮次数是随机的且取决于草稿器质量
  3. MetaSD-UCB 算法:

    • 功能:动态选择当前最优草稿器,平衡探索和利用
    • 核心思路:选择草稿器 \(a_t = \arg\max_{i \in [K]} \hat{\mu}_{i,t} + \beta \sqrt{\frac{2 \ln t}{n_i}}\),其中 \(\hat{\mu}_{i,t}\) 是经验均值奖励,第二项是置信区间。初始化阶段每个草稿器尝试一次,之后按 UCB 选择。理论证明在停止时间遗憾目标下达到 \(O(\ln B)\) 的遗憾上界
    • 设计动机:UCB 在标准随机赌博机中达到最优性能,MetaSD 将其自然扩展到推测解码的非标准设置,并给出了严格的遗憾分析

损失函数 / 训练策略

完全免训练。MetaSD 是推理时算法,不需要额外训练。草稿器可以是任意预训练的模型,支持黑盒(独立草稿器)和白盒(使用目标 LLM 潜在表示的 EAGLE 草稿器)两种配置。

实验关键数据

黑盒推测解码加速比

任务 最优单草稿器 MetaSD-UCB
Code 2.437 2.300
Translation 2.076 1.587
Summary 2.133 1.971
QA 1.960 1.711
Math 2.454 2.280

白盒推测解码加速比(EAGLE 草稿器)

任务 最优单草稿器 MetaSD-UCB
Code 3.934 3.724
Translation 2.496 2.318
Summary 3.382 3.057
QA 2.916 2.641
Math 3.903 3.520

关键发现

  • MetaSD-UCB 在不知道任务类型的情况下,自动选择接近最优专家草稿器的性能水平
  • 相比随机选择(Rand)和静态集成,MetaSD-UCB 大幅提升,说明动态选择有效
  • BD 奖励的均值差异更大、方差更低,使 UCB 能更快收敛到最优草稿器
  • 框架天然处理查询间的非平稳性(每个查询重新初始化),也可扩展到查询内非平稳性
  • 无需任何额外训练,即插即用

亮点与洞察

  • 推测解码 + 多臂赌博机的结合非常自然:对齐反馈天然提供奖励信号,无需额外设计。这种建模方式将在线决策理论引入 LLM 推理加速
  • 块散度 vs 块效率的理论分析很深入:从反馈信号强度的角度证明 BD 优于 BE,这个分析框架可推广到其他需要设计奖励的场景
  • 停止时间遗憾作为新的优化目标很有意义:揭示了标准 MAB 遗憾在推测解码中不直接适用,需要专门设计

局限与展望

  • MetaSD 的加速比总是略低于"预知最优草稿器"的理想上界,因为需要花费部分轮次探索非最优草稿器
  • 草稿器切换有 KV-cache 重新计算的开销,虽然可以用 Sequential Halving 缓解
  • 需要能计算草稿器输出分布(而非只返回采样 token),对纯黑盒 API 不适用
  • 实验中草稿器数量为 5 个,更大规模的草稿器池可能需要更高效的探索策略

相关工作与启发

  • vs 标准推测解码: 标准方法用单一草稿器,MetaSD 扩展到多草稿器池并动态选择
  • vs LLM Routing: LLM routing 在模型间路由查询,MetaSD 在草稿器间路由推测解码步骤,粒度更细
  • vs Hou et al. (2025) 并发工作: 都用 MAB 做推测解码,但 MetaSD 引入了 BD 奖励和更强的实例依赖遗憾上界

评分

  • 新颖性: ⭐⭐⭐⭐ 多草稿器推测解码的 MAB 建模自然且优雅,BD 奖励设计有理论深度
  • 实验充分度: ⭐⭐⭐⭐ 覆盖黑盒/白盒、多任务、多语言、非平稳环境
  • 写作质量: ⭐⭐⭐⭐⭐ 理论分析严谨,实验和理论相互验证
  • 价值: ⭐⭐⭐⭐ 为多草稿器推测解码提供了理论最优的选择算法

相关论文