FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning¶
会议: ICLR2026
arXiv: 2509.21792
代码: GitHub
领域: llm_reasoning
关键词: GRPO加速, 投机解码, 并发感知, 在线draft学习, 强化学习训练效率
一句话总结¶
针对GRPO训练中生成阶段占91%-98%时间的瓶颈,提出并发感知的投机解码策略(动态调整draft树大小)和在线draft模型学习(持续适配目标模型分布),实现2.35x-2.72x端到端加速。
背景与动机¶
- GRPO是提升LLM推理能力的重要RL框架,但训练极慢,生成阶段占总时间91%-98%
- 标准投机解码在高并发场景下加速效果有限,甚至可能减速(speedup<1.0x)
- GRPO生成阶段的有效并发度动态变化:从高batch size逐渐降到接近1(序列长度不均)
- 训练过程中目标模型持续更新,与固定draft模型的分布差距逐渐增大,接受率下降
- 现有投机解码方法(EAGLE-2/HASS/EAGLE-3)在GRPO中仅获1.1x-1.3x加速
- 低奖励方差的rollout导致数据浪费,进一步加重推理成本
方法详解¶
并发感知投机解码:核心思想是让验证阶段的有效batch size始终等于硬件最优并发度\(C_{\text{peak}}\)。 - 验证token数:\(N_{\text{verify}} = C_{\text{peak}} / B\),随batch size B降低而增大 - Draft扩展宽度:\(K_{\text{draft}} = \min(N_{\text{verify}}-1, K_{\text{draft}}^{\max})\) - Draft扩展深度:\(L_{\text{draft}} = \min(\lfloor\log_2(N_{\text{verify}}/\alpha)\rfloor, L_{\text{draft}}^{\max})\),α编码draft模型质量 - 效果:高并发时保守投机避免计算瓶颈,低并发时激进投机最大化加速
在线Draft学习:在GRPO每轮迭代中,用目标模型当前生成的响应(含hidden states)更新draft模型,使其持续对齐目标模型分布。额外计算开销仅2%-3%(因hidden states在生成阶段已自然产生)。
实验关键数据¶
| 模型 | 方法 | GSM8K E2E SR | SimpleRL E2E SR | DAPO E2E SR | 平均 E2E SR |
|---|---|---|---|---|---|
| Qwen2.5-7B-I | EAGLE-3 | 1.26x | 1.20x | 1.13x | 1.20x |
| Qwen2.5-7B-I | FastGRPO | 2.43x | 2.52x | 2.53x | 2.49x |
| Llama3.1-8B-I | EAGLE-3 | 1.31x | 1.28x | 1.23x | 1.27x |
| Llama3.1-8B-I | FastGRPO | 2.51x | 2.69x | 2.67x | 2.62x |
- 在线draft学习贡献约0.7x-0.9x的额外生成加速比
- 训练准确率与标准GRPO基本一致(加速不损害训练质量)
- 5个模型×3个数据集全面验证
亮点¶
- 发现并利用GRPO生成阶段并发度动态变化的特性,设计自适应策略
- 理论分析operational intensity连接硬件特性与投机解码超参
- 在线draft学习几乎零额外开销(利用已有hidden states)
- 相比最强baseline(EAGLE-3)提升约2x,实际可部署性强
局限性 / 可改进方向¶
- \(C_{\text{peak}}\)需要针对每种GPU/模型组合做empirical profiling
- 仅在数学推理任务上验证,未测试代码/通用推理等场景
- Draft模型架构固定为EAGLE系列,未探索其他draft方案
- α超参需要手动调节
- 未讨论多节点分布式训练场景下的效果
与相关工作的对比¶
- EAGLE-2/HASS/EAGLE-3在GRPO中仅1.1x-1.3x,FastGRPO达2.4x-2.7x
- 关键差异:考虑了GRPO特有的动态并发变化(非静态推理场景)
- 在线draft学习比离线预训练draft模型保持更好的接受率(acceptance length持续上升vs下降)
评分¶
- 新颖性: ⭐⭐⭐⭐ (并发感知+在线学习的组合方案针对性强)
- 实验充分度: ⭐⭐⭐⭐⭐ (5模型3数据集,消融充分)
- 写作质量: ⭐⭐⭐⭐ (动机-观察-方法逻辑清晰)
- 价值: ⭐⭐⭐⭐⭐ (直接降低GRPO训练成本,实用性极高)