Multi-Drafter Speculative Decoding with Alignment Feedback¶
会议: ACL 2026
arXiv: 2604.05417
代码: 有
领域: LLM效率
关键词: 推测解码, 多臂赌博机, 多草稿器, 对齐反馈, 推理加速
一句话总结¶
本文提出 MetaSD,一个将多个异构草稿器整合到推测解码中的统一框架,将草稿器选择建模为多臂赌博机问题,通过块散度(Block Divergence)奖励信号动态选择与目标 LLM 最对齐的草稿器,在黑盒和白盒配置下一致优于单草稿器方法。
研究背景与动机¶
领域现状:推测解码(Speculative Decoding)通过小模型(草稿器)预测未来 token、大模型并行验证来加速 LLM 推理。现有方法通过架构改进(EAGLE、Medusa)、知识蒸馏和树搜索验证等提高了接受率。
现有痛点:现有方法几乎全部依赖单一草稿器,但单个草稿器通常针对特定任务/领域训练,在分布外输入或动态用户查询上表现不佳。随着"专家模型集成"趋势的兴起(类似 LLM routing),单草稿器的局限变得更加突出。
核心矛盾:不同任务需要不同的草稿器,但在推理时无法提前知道哪个草稿器最适合当前输入。手动切换草稿器不可行,需要一个能自动适应的动态选择机制。
本文目标:设计一个多草稿器框架,能在推理过程中动态选择最优草稿器。
切入角度:推测解码天然提供了"对齐反馈"——草稿器预测与目标模型预测之间的匹配程度可以作为实时反馈信号。这与多臂赌博机问题完美对应:每个草稿器是一个臂,对齐反馈是奖励信号。
核心 idea:将多草稿器推测解码建模为多臂赌博机问题,提出块散度(Block Divergence)作为奖励信号(比传统的块效率更信息丰富、方差更低),用 UCB 算法动态平衡探索和利用来选择草稿器。
方法详解¶
整体框架¶
维护一个包含 \(K\) 个异构草稿器的池子。每个推测解码轮次中,用 UCB 算法选择一个草稿器执行一步草稿-验证-接受。基于接受结果计算块散度奖励,更新该草稿器的经验均值和置信区间。循环直到生成目标长度 \(B\) 的序列。
关键设计¶
-
块散度(Block Divergence)奖励:
- 功能:提供比传统块效率更信息丰富的对齐反馈信号
- 核心思路:\(r_{i,t}^{BD} = \frac{1}{N_{max}} \sum_{j=0}^{N_{max}-1} (1 - d_{TV}(p^{l(t)+j}, q_i^{l(t)+j}))\),即在一个草稿块的所有位置上计算目标模型和草稿器概率分布的 TV 距离平均值。相比块效率(只计算接受的 token 数),BD 在每个位置都提供连续的对齐信息,避免了二值化的信息损失
- 设计动机:定理证明 BD 奖励的"反馈信号"\(R(r_i) = \frac{\Delta_i^2}{\max(\text{Var}[r_i], \text{Var}[r_{i^*}])}\) 在大多数情况下大于 BE 奖励。更强的反馈信号意味着赌博机算法能更快更准确地识别最优草稿器。实证也验证 BD 的方差更低、均值差异更大
-
停止时间遗憾目标:
- 功能:为多草稿器推测解码定义合适的优化目标
- 核心思路:\(\text{Reg}(\pi, B) = \mathbb{E}[\tau(\pi, B)] - \mathbb{E}[\tau(\pi^*, B)]\),即最小化生成 \(B\) 个 token 所需的推测解码轮次数与最优策略的差距。引理证明这等价于最大化接受 token 数,与推测解码目标一致
- 设计动机:标准 MAB 遗憾(最大化累积奖励)不直接对应推测解码效率——在推测解码中,轮次数是随机的且取决于草稿器质量
-
MetaSD-UCB 算法:
- 功能:动态选择当前最优草稿器,平衡探索和利用
- 核心思路:选择草稿器 \(a_t = \arg\max_{i \in [K]} \hat{\mu}_{i,t} + \beta \sqrt{\frac{2 \ln t}{n_i}}\),其中 \(\hat{\mu}_{i,t}\) 是经验均值奖励,第二项是置信区间。初始化阶段每个草稿器尝试一次,之后按 UCB 选择。理论证明在停止时间遗憾目标下达到 \(O(\ln B)\) 的遗憾上界
- 设计动机:UCB 在标准随机赌博机中达到最优性能,MetaSD 将其自然扩展到推测解码的非标准设置,并给出了严格的遗憾分析
损失函数 / 训练策略¶
完全免训练。MetaSD 是推理时算法,不需要额外训练。草稿器可以是任意预训练的模型,支持黑盒(独立草稿器)和白盒(使用目标 LLM 潜在表示的 EAGLE 草稿器)两种配置。
实验关键数据¶
黑盒推测解码加速比¶
| 任务 | 最优单草稿器 | MetaSD-UCB |
|---|---|---|
| Code | 2.437 | 2.300 |
| Translation | 2.076 | 1.587 |
| Summary | 2.133 | 1.971 |
| QA | 1.960 | 1.711 |
| Math | 2.454 | 2.280 |
白盒推测解码加速比(EAGLE 草稿器)¶
| 任务 | 最优单草稿器 | MetaSD-UCB |
|---|---|---|
| Code | 3.934 | 3.724 |
| Translation | 2.496 | 2.318 |
| Summary | 3.382 | 3.057 |
| QA | 2.916 | 2.641 |
| Math | 3.903 | 3.520 |
关键发现¶
- MetaSD-UCB 在不知道任务类型的情况下,自动选择接近最优专家草稿器的性能水平
- 相比随机选择(Rand)和静态集成,MetaSD-UCB 大幅提升,说明动态选择有效
- BD 奖励的均值差异更大、方差更低,使 UCB 能更快收敛到最优草稿器
- 框架天然处理查询间的非平稳性(每个查询重新初始化),也可扩展到查询内非平稳性
- 无需任何额外训练,即插即用
亮点与洞察¶
- 推测解码 + 多臂赌博机的结合非常自然:对齐反馈天然提供奖励信号,无需额外设计。这种建模方式将在线决策理论引入 LLM 推理加速
- 块散度 vs 块效率的理论分析很深入:从反馈信号强度的角度证明 BD 优于 BE,这个分析框架可推广到其他需要设计奖励的场景
- 停止时间遗憾作为新的优化目标很有意义:揭示了标准 MAB 遗憾在推测解码中不直接适用,需要专门设计
局限与展望¶
- MetaSD 的加速比总是略低于"预知最优草稿器"的理想上界,因为需要花费部分轮次探索非最优草稿器
- 草稿器切换有 KV-cache 重新计算的开销,虽然可以用 Sequential Halving 缓解
- 需要能计算草稿器输出分布(而非只返回采样 token),对纯黑盒 API 不适用
- 实验中草稿器数量为 5 个,更大规模的草稿器池可能需要更高效的探索策略
相关工作与启发¶
- vs 标准推测解码: 标准方法用单一草稿器,MetaSD 扩展到多草稿器池并动态选择
- vs LLM Routing: LLM routing 在模型间路由查询,MetaSD 在草稿器间路由推测解码步骤,粒度更细
- vs Hou et al. (2025) 并发工作: 都用 MAB 做推测解码,但 MetaSD 引入了 BD 奖励和更强的实例依赖遗憾上界
评分¶
- 新颖性: ⭐⭐⭐⭐ 多草稿器推测解码的 MAB 建模自然且优雅,BD 奖励设计有理论深度
- 实验充分度: ⭐⭐⭐⭐ 覆盖黑盒/白盒、多任务、多语言、非平稳环境
- 写作质量: ⭐⭐⭐⭐⭐ 理论分析严谨,实验和理论相互验证
- 价值: ⭐⭐⭐⭐ 为多草稿器推测解码提供了理论最优的选择算法
相关论文¶
- [ACL 2026] Speculative Verification: Exploiting Information Gain to Refine Speculative Decoding
- [NeurIPS 2025] OmniDraft: A Cross-Vocabulary Online Adaptive Drafter for On-Device Speculative Decoding
- [NeurIPS 2025] 3-Model Speculative Decoding (PyramidSD)
- [ACL 2025] SAM Decoding: Speculative Decoding via Suffix Automaton
- [ACL 2026] SciCoQA: Quality Assurance for Scientific Paper–Code Alignment