Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning¶
会议: ICLR2026
arXiv: 2510.19807
代码: 待确认
领域: llm_alignment
关键词: GRPO, learning cliff, scaffolding, hierarchical hints, math reasoning
一句话总结¶
提出 Scaf-GRPO 框架,通过分层 in-prompt hint 注入(知识→规划→求解)解决 RLVR 中的"学习悬崖"问题——当模型对难题持续零奖励时,以最小引导恢复学习梯度,在 AIME24 上相对 vanilla GRPO 提升 44.3%。
背景与动机¶
- RLVR(如 GRPO)通过验证器奖励训练 LLM 推理能力,但面临"学习悬崖":难题上所有采样均失败导致零奖励
- 零奖励使 GRPO 的优势函数 \(\hat{A}_i\) 坍缩为零,难题对梯度更新"不可见",形成长尾瓶颈
- 现有方案(如 LUFFY)通过教师模型的解题前缀引导,但引入分布不匹配且限制模型探索自由度
- 前缀续写范式需要复杂的 policy shaping 或混合 SFT-RL 目标来修正偏差
- 需要一种保持 on-policy 性质且不限制探索路径的引导方式
方法详解¶
阶段1 - 诊断真难题: 设置引导豁免期(前 15% 训练步),让模型先自主探索。监控零奖励题目解决率,稳定后仍未解决的问题标记为"真难题"(vs 伪难题)。
阶段2 - 分层 hint 引导探索: 对真难题,按从抽象到具体的三级 hint 层次搜索: - \(H_{\text{knowledge}}\): 指出所需关键概念/公式 - \(H_{\text{planning}}\): 提供高层解题策略框架 - \(H_{\text{solution}}\): 给出具体计算步骤
从最抽象的 hint 开始,一旦模型能生成正确解即停止,找到最小有效引导。
批次增强: 当组内所有轨迹零奖励时,用 hint 引导的成功轨迹 \(o_h^*\) 替换一条失败轨迹,形成增强批次 \(\mathcal{G}_{\text{final}}\)。关键:\(o_h^*\) 由当前策略 \(\pi_\theta(\cdot|q \oplus h^*)\) 采样,保持 on-policy。
损失函数: 数学形式与标准 GRPO 完全一致(Eq.1),仅数据不同。概率比分别按各轨迹的原始 prompt 计算,避免分布不匹配。
实验关键数据¶
| 模型 | 方法 | AIME24 | AIME25 | AMC | MATH-500 | 7 基准平均 |
|---|---|---|---|---|---|---|
| Qwen2.5-Math-7B | Vanilla GRPO | 30.0 | 13.3 | 60.0 | 75.8 | 45.2 |
| LUFFY | 33.3 | 16.7 | 62.5 | 75.2 | 46.6 | |
| Scaf-GRPO | 43.3 | 20.0 | 70.0 | 80.0 | 50.9 | |
| Qwen2.5-Math-1.5B | Vanilla GRPO | 13.3 | 10.0 | 47.5 | 72.2 | 37.6 |
| Scaf-GRPO | 20.0 | 13.3 | 60.0 | 73.4 | 41.5 | |
| DS-R1-Distill-1.5B | Vanilla GRPO | 30.0 | 21.1 | 67.5 | 83.9 | 50.6 |
| Scaf-GRPO | 33.3 | 23.3 | 77.5 | 85.8 | 53.6 |
- AIME24 上 Qwen2.5-Math-7B 相对提升 44.3%(30.0→43.3)
- 在 5 种不同架构/规模模型上一致有效(Qwen、Llama、长 CoT)
- 相对 LUFFY 在 7B 模型上平均提升 9.2%
亮点¶
- "脚手架"教学法理论启发:最小引导 + 渐进退出,比前缀续写更优雅
- 严格保持 on-policy 性质,无需 importance sampling 修正
- 引导豁免期设计合理——区分伪难题和真难题,避免过度干预
- 在所有测试模型上一致提升,泛化性强
局限性 / 可改进方向¶
- hint 由外部教师模型(如 GPT-4)生成,引入了对强模型的依赖
- 三级 hint 层次是手工设计的,最优粒度可能因领域而异
- 仅在数学推理上验证,代码生成、逻辑推理等领域适用性待验证
- 引导豁免期比例(15%)为经验值,自适应调整可能更优
- 当模型能力与真难题差距过大时,即使最具体的 hint 也可能不够
与相关工作的对比¶
- LUFFY (Yan et al.): 前缀续写 + policy shaping,引入 off-policy 偏差;Scaf-GRPO 用 in-prompt hint 保持 on-policy
- Huang et al.: cosine 衰减前缀长度,仍有分布不匹配;Scaf-GRPO 从一开始就避免此问题
- SimpleRL-Zero / Oat-Zero: 改进 GRPO 稳定性但不解决学习悬崖;Scaf-GRPO 直接攻克零奖励问题
评分¶
- 新颖性: ⭐⭐⭐⭐ (脚手架式引导思路新颖优雅)
- 实验充分度: ⭐⭐⭐⭐⭐ (5 种模型 × 7 基准 + 丰富消融)
- 写作质量: ⭐⭐⭐⭐ (动机清楚,方法阐述清晰)
- 价值: ⭐⭐⭐⭐ (解决 RLVR 训练的关键瓶颈)