ConFu: Contemplate the Future for Better Speculative Sampling¶

会议: ICLR2026
arXiv: 2603.08899
代码: 待确认
领域: LLM推理加速 / 推测解码
关键词: speculative decoding, contemplate tokens, future prediction, MoE, draft model, EAGLE

一句话总结¶

提出 ConFu 框架，通过 contemplate tokens 让 draft model 预见 target model 的未来生成方向，结合 MoE 动态机制和锚点采样训练，在 EAGLE-3 基础上提升 8-11% 的接受率和速度。

背景与动机¶

推测解码用轻量 draft model 提议候选 token，由 target model 验证，避免逐 token 推理
EAGLE 系列是当前 SOTA，利用 target model 隐状态训练单层 Transformer draft head
核心问题：现有 draft model 仅基于当前前缀生成，误差随步数累积，接受率下降
直觉：如果 draft model 能预知 target model 的"思路方向"，生成的候选更可能被接受
Latent reasoning（连续思考 token）已证明可提升推理，但需多次前向传播，代价高

方法详解¶

核心创新 1: Contemplate Tokens + Soft Prompts - 在 target model 输入前插入可学习 soft prompt tokens，末尾附加 contemplate token - Contemplate token 的隐状态编码 target model 的"中间思想"→作为 future token f 提供给 draft model - 仅 contemplate tokens 可 attend to soft prompts，不影响原始前缀表征 - 推理时在 draft tree 每个节点插入一个 contemplate token，并行验证+生成未来预测

核心创新 2: MoE 动态 Contemplate Token - 用 MoE 参数化 contemplate token embedding 而非固定学习向量 - 以最新接受 token 的隐状态为输入，线性 router 选择 top-K experts 的加权组合 - 不同上下文（数学推理 vs 写作）自适应选择不同"指令"

核心创新 3: 训练框架 - Anchor Token Sampling: 随机采样 K_train 个锚点 token 插入 contemplate token，避免序列翻倍 - Future Prediction Replication: 锚点的 future prediction 复用给临近 token，增强鲁棒性 - 损失：KL 散度对齐 target 和 draft 分布，无需额外辅助损失

实验关键数据¶

Llama-3.2-3B on SpecBench (T=0.0, 30 nodes): | 方法 | 平均接受长度 τ | 加速比 SR | |------|-----------|------| | EAGLE-3 | 4.00 | 1.83× | | ConFu | 4.41 | 2.11× |

在所有任务类型（写作/QA/代码/数学等）均一致提升
不同温度（0.0/0.7/1.0）和预算（30/60 nodes）下均有效
8B 模型同样有 8-11% 提升
8×H100 训练，单 H100 推理

亮点¶

首次将连续推理 token 与推测解码桥接
Contemplate token 利用 pause token 机理，推理开销极小（仅增 2T 个验证 token）
MoE 动态 token 是 pause token 设置中首次引入的动态性
建立在 EAGLE-3 之上，从检查点初始化，训练高效

局限性 / 可改进方向¶

仅在 Llama-3 3B/8B 测试，更大模型（70B+）待验证
Soft prompt 和 contemplate token 的超参数调优空间未充分探索
MoE expert 数量和 top-K 选择的影响未详细分析
推理时额外 2T 个 token 的延迟在极端场景下可能非微不足道

与相关工作的对比¶

EAGLE-1/2/3: 逐步改进 draft 架构和训练，但无未来预测机制；ConFu 为正交改进
Medusa/HASS: 不如 EAGLE 系列，ConFu 以 EAGLE-3 为基线
BiTA: 用 soft prompt 直接解码未来 token；ConFu 用其引导 draft model
Latent Reasoning (COCONUT等): 需多步前向传播；ConFu 用 pause token 并行计算

评分¶

新颖性: ⭐⭐⭐⭐ (概念新颖：future prediction + speculative decoding)
实验充分度: ⭐⭐⭐⭐ (多任务/多温度/多预算的全面评测)
写作质量: ⭐⭐⭐⭐ (结构清晰，图示直观)
价值: ⭐⭐⭐⭐ (为推测解码开辟新的改进方向)