FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning¶

会议: ICLR2026
arXiv: 2509.21792
代码: GitHub
领域: llm_reasoning
关键词: GRPO加速, 投机解码, 并发感知, 在线draft学习, 强化学习训练效率

一句话总结¶

针对GRPO训练中生成阶段占91%-98%时间的瓶颈，提出并发感知的投机解码策略（动态调整draft树大小）和在线draft模型学习（持续适配目标模型分布），实现2.35x-2.72x端到端加速。

背景与动机¶

GRPO是提升LLM推理能力的重要RL框架，但训练极慢，生成阶段占总时间91%-98%
标准投机解码在高并发场景下加速效果有限，甚至可能减速（speedup<1.0x）
GRPO生成阶段的有效并发度动态变化：从高batch size逐渐降到接近1（序列长度不均）
训练过程中目标模型持续更新，与固定draft模型的分布差距逐渐增大，接受率下降
现有投机解码方法(EAGLE-2/HASS/EAGLE-3)在GRPO中仅获1.1x-1.3x加速
低奖励方差的rollout导致数据浪费，进一步加重推理成本

方法详解¶

并发感知投机解码：核心思想是让验证阶段的有效batch size始终等于硬件最优并发度\(C_{\text{peak}}\)。 - 验证token数：\(N_{\text{verify}} = C_{\text{peak}} / B\)，随batch size B降低而增大 - Draft扩展宽度：\(K_{\text{draft}} = \min(N_{\text{verify}}-1, K_{\text{draft}}^{\max})\) - Draft扩展深度：\(L_{\text{draft}} = \min(\lfloor\log_2(N_{\text{verify}}/\alpha)\rfloor, L_{\text{draft}}^{\max})\)，α编码draft模型质量 - 效果：高并发时保守投机避免计算瓶颈，低并发时激进投机最大化加速

在线Draft学习：在GRPO每轮迭代中，用目标模型当前生成的响应(含hidden states)更新draft模型，使其持续对齐目标模型分布。额外计算开销仅2%-3%（因hidden states在生成阶段已自然产生）。

实验关键数据¶

模型	方法	GSM8K E2E SR	SimpleRL E2E SR	DAPO E2E SR	平均 E2E SR
Qwen2.5-7B-I	EAGLE-3	1.26x	1.20x	1.13x	1.20x
Qwen2.5-7B-I	FastGRPO	2.43x	2.52x	2.53x	2.49x
Llama3.1-8B-I	EAGLE-3	1.31x	1.28x	1.23x	1.27x
Llama3.1-8B-I	FastGRPO	2.51x	2.69x	2.67x	2.62x

在线draft学习贡献约0.7x-0.9x的额外生成加速比
训练准确率与标准GRPO基本一致(加速不损害训练质量)
5个模型×3个数据集全面验证

亮点¶

发现并利用GRPO生成阶段并发度动态变化的特性，设计自适应策略
理论分析operational intensity连接硬件特性与投机解码超参
在线draft学习几乎零额外开销（利用已有hidden states）
相比最强baseline(EAGLE-3)提升约2x，实际可部署性强

局限性 / 可改进方向¶

\(C_{\text{peak}}\)需要针对每种GPU/模型组合做empirical profiling
仅在数学推理任务上验证，未测试代码/通用推理等场景
Draft模型架构固定为EAGLE系列，未探索其他draft方案
α超参需要手动调节
未讨论多节点分布式训练场景下的效果

与相关工作的对比¶

EAGLE-2/HASS/EAGLE-3在GRPO中仅1.1x-1.3x，FastGRPO达2.4x-2.7x
关键差异：考虑了GRPO特有的动态并发变化(非静态推理场景)
在线draft学习比离线预训练draft模型保持更好的接受率(acceptance length持续上升vs下降)

评分¶

新颖性: ⭐⭐⭐⭐ (并发感知+在线学习的组合方案针对性强)
实验充分度: ⭐⭐⭐⭐⭐ (5模型3数据集，消融充分)
写作质量: ⭐⭐⭐⭐ (动机-观察-方法逻辑清晰)
价值: ⭐⭐⭐⭐⭐ (直接降低GRPO训练成本，实用性极高)