跳转至

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

会议: ICLR2026
arXiv: 2510.19807
代码: 待确认
领域: llm_alignment
关键词: GRPO, learning cliff, scaffolding, hierarchical hints, math reasoning

一句话总结

提出 Scaf-GRPO 框架,通过分层 in-prompt hint 注入(知识→规划→求解)解决 RLVR 中的"学习悬崖"问题——当模型对难题持续零奖励时,以最小引导恢复学习梯度,在 AIME24 上相对 vanilla GRPO 提升 44.3%。

背景与动机

  1. RLVR(如 GRPO)通过验证器奖励训练 LLM 推理能力,但面临"学习悬崖":难题上所有采样均失败导致零奖励
  2. 零奖励使 GRPO 的优势函数 \(\hat{A}_i\) 坍缩为零,难题对梯度更新"不可见",形成长尾瓶颈
  3. 现有方案(如 LUFFY)通过教师模型的解题前缀引导,但引入分布不匹配且限制模型探索自由度
  4. 前缀续写范式需要复杂的 policy shaping 或混合 SFT-RL 目标来修正偏差
  5. 需要一种保持 on-policy 性质且不限制探索路径的引导方式

方法详解

阶段1 - 诊断真难题: 设置引导豁免期(前 15% 训练步),让模型先自主探索。监控零奖励题目解决率,稳定后仍未解决的问题标记为"真难题"(vs 伪难题)。

阶段2 - 分层 hint 引导探索: 对真难题,按从抽象到具体的三级 hint 层次搜索: - \(H_{\text{knowledge}}\): 指出所需关键概念/公式 - \(H_{\text{planning}}\): 提供高层解题策略框架 - \(H_{\text{solution}}\): 给出具体计算步骤

从最抽象的 hint 开始,一旦模型能生成正确解即停止,找到最小有效引导。

批次增强: 当组内所有轨迹零奖励时,用 hint 引导的成功轨迹 \(o_h^*\) 替换一条失败轨迹,形成增强批次 \(\mathcal{G}_{\text{final}}\)。关键:\(o_h^*\) 由当前策略 \(\pi_\theta(\cdot|q \oplus h^*)\) 采样,保持 on-policy。

损失函数: 数学形式与标准 GRPO 完全一致(Eq.1),仅数据不同。概率比分别按各轨迹的原始 prompt 计算,避免分布不匹配。

实验关键数据

模型 方法 AIME24 AIME25 AMC MATH-500 7 基准平均
Qwen2.5-Math-7B Vanilla GRPO 30.0 13.3 60.0 75.8 45.2
LUFFY 33.3 16.7 62.5 75.2 46.6
Scaf-GRPO 43.3 20.0 70.0 80.0 50.9
Qwen2.5-Math-1.5B Vanilla GRPO 13.3 10.0 47.5 72.2 37.6
Scaf-GRPO 20.0 13.3 60.0 73.4 41.5
DS-R1-Distill-1.5B Vanilla GRPO 30.0 21.1 67.5 83.9 50.6
Scaf-GRPO 33.3 23.3 77.5 85.8 53.6
  • AIME24 上 Qwen2.5-Math-7B 相对提升 44.3%(30.0→43.3)
  • 在 5 种不同架构/规模模型上一致有效(Qwen、Llama、长 CoT)
  • 相对 LUFFY 在 7B 模型上平均提升 9.2%

亮点

  • "脚手架"教学法理论启发:最小引导 + 渐进退出,比前缀续写更优雅
  • 严格保持 on-policy 性质,无需 importance sampling 修正
  • 引导豁免期设计合理——区分伪难题和真难题,避免过度干预
  • 在所有测试模型上一致提升,泛化性强

局限性 / 可改进方向

  • hint 由外部教师模型(如 GPT-4)生成,引入了对强模型的依赖
  • 三级 hint 层次是手工设计的,最优粒度可能因领域而异
  • 仅在数学推理上验证,代码生成、逻辑推理等领域适用性待验证
  • 引导豁免期比例(15%)为经验值,自适应调整可能更优
  • 当模型能力与真难题差距过大时,即使最具体的 hint 也可能不够

与相关工作的对比

  • LUFFY (Yan et al.): 前缀续写 + policy shaping,引入 off-policy 偏差;Scaf-GRPO 用 in-prompt hint 保持 on-policy
  • Huang et al.: cosine 衰减前缀长度,仍有分布不匹配;Scaf-GRPO 从一开始就避免此问题
  • SimpleRL-Zero / Oat-Zero: 改进 GRPO 稳定性但不解决学习悬崖;Scaf-GRPO 直接攻克零奖励问题

评分

  • 新颖性: ⭐⭐⭐⭐ (脚手架式引导思路新颖优雅)
  • 实验充分度: ⭐⭐⭐⭐⭐ (5 种模型 × 7 基准 + 丰富消融)
  • 写作质量: ⭐⭐⭐⭐ (动机清楚,方法阐述清晰)
  • 价值: ⭐⭐⭐⭐ (解决 RLVR 训练的关键瓶颈)