Multi-Drafter Speculative Decoding with Alignment Feedback¶

会议: ACL 2026
arXiv: 2604.05417
代码: 有
领域: LLM效率
关键词: 推测解码, 多臂赌博机, 多草稿器, 对齐反馈, 推理加速

一句话总结¶

本文提出 MetaSD，一个将多个异构草稿器整合到推测解码中的统一框架，将草稿器选择建模为多臂赌博机问题，通过块散度（Block Divergence）奖励信号动态选择与目标 LLM 最对齐的草稿器，在黑盒和白盒配置下一致优于单草稿器方法。

研究背景与动机¶

领域现状：推测解码（Speculative Decoding）通过小模型（草稿器）预测未来 token、大模型并行验证来加速 LLM 推理。现有方法通过架构改进（EAGLE、Medusa）、知识蒸馏和树搜索验证等提高了接受率。

现有痛点：现有方法几乎全部依赖单一草稿器，但单个草稿器通常针对特定任务/领域训练，在分布外输入或动态用户查询上表现不佳。随着"专家模型集成"趋势的兴起（类似 LLM routing），单草稿器的局限变得更加突出。

核心矛盾：不同任务需要不同的草稿器，但在推理时无法提前知道哪个草稿器最适合当前输入。手动切换草稿器不可行，需要一个能自动适应的动态选择机制。

本文目标：设计一个多草稿器框架，能在推理过程中动态选择最优草稿器。

切入角度：推测解码天然提供了"对齐反馈"——草稿器预测与目标模型预测之间的匹配程度可以作为实时反馈信号。这与多臂赌博机问题完美对应：每个草稿器是一个臂，对齐反馈是奖励信号。

核心 idea：将多草稿器推测解码建模为多臂赌博机问题，提出块散度（Block Divergence）作为奖励信号（比传统的块效率更信息丰富、方差更低），用 UCB 算法动态平衡探索和利用来选择草稿器。

方法详解¶

整体框架¶

维护一个包含 \(K\) 个异构草稿器的池子。每个推测解码轮次中，用 UCB 算法选择一个草稿器执行一步草稿-验证-接受。基于接受结果计算块散度奖励，更新该草稿器的经验均值和置信区间。循环直到生成目标长度 \(B\) 的序列。

关键设计¶

块散度（Block Divergence）奖励:
- 功能：提供比传统块效率更信息丰富的对齐反馈信号
- 核心思路：\(r_{i,t}^{BD} = \frac{1}{N_{max}} \sum_{j=0}^{N_{max}-1} (1 - d_{TV}(p^{l(t)+j}, q_i^{l(t)+j}))\)，即在一个草稿块的所有位置上计算目标模型和草稿器概率分布的 TV 距离平均值。相比块效率（只计算接受的 token 数），BD 在每个位置都提供连续的对齐信息，避免了二值化的信息损失
- 设计动机：定理证明 BD 奖励的"反馈信号"\(R(r_i) = \frac{\Delta_i^2}{\max(\text{Var}[r_i], \text{Var}[r_{i^*}])}\) 在大多数情况下大于 BE 奖励。更强的反馈信号意味着赌博机算法能更快更准确地识别最优草稿器。实证也验证 BD 的方差更低、均值差异更大
停止时间遗憾目标:
- 功能：为多草稿器推测解码定义合适的优化目标
- 核心思路：\(\text{Reg}(\pi, B) = \mathbb{E}[\tau(\pi, B)] - \mathbb{E}[\tau(\pi^*, B)]\)，即最小化生成 \(B\) 个 token 所需的推测解码轮次数与最优策略的差距。引理证明这等价于最大化接受 token 数，与推测解码目标一致
- 设计动机：标准 MAB 遗憾（最大化累积奖励）不直接对应推测解码效率——在推测解码中，轮次数是随机的且取决于草稿器质量
MetaSD-UCB 算法:
- 功能：动态选择当前最优草稿器，平衡探索和利用
- 核心思路：选择草稿器 \(a_t = \arg\max_{i \in [K]} \hat{\mu}_{i,t} + \beta \sqrt{\frac{2 \ln t}{n_i}}\)，其中 \(\hat{\mu}_{i,t}\) 是经验均值奖励，第二项是置信区间。初始化阶段每个草稿器尝试一次，之后按 UCB 选择。理论证明在停止时间遗憾目标下达到 \(O(\ln B)\) 的遗憾上界
- 设计动机：UCB 在标准随机赌博机中达到最优性能，MetaSD 将其自然扩展到推测解码的非标准设置，并给出了严格的遗憾分析

损失函数 / 训练策略¶

完全免训练。MetaSD 是推理时算法，不需要额外训练。草稿器可以是任意预训练的模型，支持黑盒（独立草稿器）和白盒（使用目标 LLM 潜在表示的 EAGLE 草稿器）两种配置。

实验关键数据¶

黑盒推测解码加速比¶

任务	最优单草稿器	MetaSD-UCB
Code	2.437	2.300
Translation	2.076	1.587
Summary	2.133	1.971
QA	1.960	1.711
Math	2.454	2.280

白盒推测解码加速比（EAGLE 草稿器）¶

任务	最优单草稿器	MetaSD-UCB
Code	3.934	3.724
Translation	2.496	2.318
Summary	3.382	3.057
QA	2.916	2.641
Math	3.903	3.520

关键发现¶

MetaSD-UCB 在不知道任务类型的情况下，自动选择接近最优专家草稿器的性能水平
相比随机选择（Rand）和静态集成，MetaSD-UCB 大幅提升，说明动态选择有效
BD 奖励的均值差异更大、方差更低，使 UCB 能更快收敛到最优草稿器
框架天然处理查询间的非平稳性（每个查询重新初始化），也可扩展到查询内非平稳性
无需任何额外训练，即插即用

亮点与洞察¶

推测解码 + 多臂赌博机的结合非常自然：对齐反馈天然提供奖励信号，无需额外设计。这种建模方式将在线决策理论引入 LLM 推理加速
块散度 vs 块效率的理论分析很深入：从反馈信号强度的角度证明 BD 优于 BE，这个分析框架可推广到其他需要设计奖励的场景
停止时间遗憾作为新的优化目标很有意义：揭示了标准 MAB 遗憾在推测解码中不直接适用，需要专门设计

局限与展望¶

MetaSD 的加速比总是略低于"预知最优草稿器"的理想上界，因为需要花费部分轮次探索非最优草稿器
草稿器切换有 KV-cache 重新计算的开销，虽然可以用 Sequential Halving 缓解
需要能计算草稿器输出分布（而非只返回采样 token），对纯黑盒 API 不适用
实验中草稿器数量为 5 个，更大规模的草稿器池可能需要更高效的探索策略

评分¶

新颖性: ⭐⭐⭐⭐ 多草稿器推测解码的 MAB 建模自然且优雅，BD 奖励设计有理论深度
实验充分度: ⭐⭐⭐⭐ 覆盖黑盒/白盒、多任务、多语言、非平稳环境
写作质量: ⭐⭐⭐⭐⭐ 理论分析严谨，实验和理论相互验证
价值: ⭐⭐⭐⭐ 为多草稿器推测解码提供了理论最优的选择算法