Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning¶

会议: ICLR2026
arXiv: 2510.19807
代码: 待确认
领域: llm_alignment
关键词: GRPO, learning cliff, scaffolding, hierarchical hints, math reasoning

一句话总结¶

提出 Scaf-GRPO 框架，通过分层 in-prompt hint 注入（知识→规划→求解）解决 RLVR 中的"学习悬崖"问题——当模型对难题持续零奖励时，以最小引导恢复学习梯度，在 AIME24 上相对 vanilla GRPO 提升 44.3%。

背景与动机¶

RLVR（如 GRPO）通过验证器奖励训练 LLM 推理能力，但面临"学习悬崖"：难题上所有采样均失败导致零奖励
零奖励使 GRPO 的优势函数 \(\hat{A}_i\) 坍缩为零，难题对梯度更新"不可见"，形成长尾瓶颈
现有方案（如 LUFFY）通过教师模型的解题前缀引导，但引入分布不匹配且限制模型探索自由度
前缀续写范式需要复杂的 policy shaping 或混合 SFT-RL 目标来修正偏差
需要一种保持 on-policy 性质且不限制探索路径的引导方式

方法详解¶

阶段1 - 诊断真难题: 设置引导豁免期（前 15% 训练步），让模型先自主探索。监控零奖励题目解决率，稳定后仍未解决的问题标记为"真难题"（vs 伪难题）。

阶段2 - 分层 hint 引导探索: 对真难题，按从抽象到具体的三级 hint 层次搜索： - \(H_{\text{knowledge}}\): 指出所需关键概念/公式 - \(H_{\text{planning}}\): 提供高层解题策略框架 - \(H_{\text{solution}}\): 给出具体计算步骤

从最抽象的 hint 开始，一旦模型能生成正确解即停止，找到最小有效引导。

批次增强: 当组内所有轨迹零奖励时，用 hint 引导的成功轨迹 \(o_h^*\) 替换一条失败轨迹，形成增强批次 \(\mathcal{G}_{\text{final}}\)。关键：\(o_h^*\) 由当前策略 \(\pi_\theta(\cdot|q \oplus h^*)\) 采样，保持 on-policy。

损失函数: 数学形式与标准 GRPO 完全一致（Eq.1），仅数据不同。概率比分别按各轨迹的原始 prompt 计算，避免分布不匹配。

实验关键数据¶

模型	方法	AIME24	AIME25	AMC	MATH-500	7 基准平均
Qwen2.5-Math-7B	Vanilla GRPO	30.0	13.3	60.0	75.8	45.2
	LUFFY	33.3	16.7	62.5	75.2	46.6
	Scaf-GRPO	43.3	20.0	70.0	80.0	50.9
Qwen2.5-Math-1.5B	Vanilla GRPO	13.3	10.0	47.5	72.2	37.6
	Scaf-GRPO	20.0	13.3	60.0	73.4	41.5
DS-R1-Distill-1.5B	Vanilla GRPO	30.0	21.1	67.5	83.9	50.6
	Scaf-GRPO	33.3	23.3	77.5	85.8	53.6

AIME24 上 Qwen2.5-Math-7B 相对提升 44.3%（30.0→43.3）
在 5 种不同架构/规模模型上一致有效（Qwen、Llama、长 CoT）
相对 LUFFY 在 7B 模型上平均提升 9.2%

亮点¶

"脚手架"教学法理论启发：最小引导 + 渐进退出，比前缀续写更优雅
严格保持 on-policy 性质，无需 importance sampling 修正
引导豁免期设计合理——区分伪难题和真难题，避免过度干预
在所有测试模型上一致提升，泛化性强

局限性 / 可改进方向¶

hint 由外部教师模型（如 GPT-4）生成，引入了对强模型的依赖
三级 hint 层次是手工设计的，最优粒度可能因领域而异
仅在数学推理上验证，代码生成、逻辑推理等领域适用性待验证
引导豁免期比例（15%）为经验值，自适应调整可能更优
当模型能力与真难题差距过大时，即使最具体的 hint 也可能不够

与相关工作的对比¶

LUFFY (Yan et al.): 前缀续写 + policy shaping，引入 off-policy 偏差；Scaf-GRPO 用 in-prompt hint 保持 on-policy
Huang et al.: cosine 衰减前缀长度，仍有分布不匹配；Scaf-GRPO 从一开始就避免此问题
SimpleRL-Zero / Oat-Zero: 改进 GRPO 稳定性但不解决学习悬崖；Scaf-GRPO 直接攻克零奖励问题

评分¶

新颖性: ⭐⭐⭐⭐ (脚手架式引导思路新颖优雅)
实验充分度: ⭐⭐⭐⭐⭐ (5 种模型 × 7 基准 + 丰富消融)
写作质量: ⭐⭐⭐⭐ (动机清楚，方法阐述清晰)
价值: ⭐⭐⭐⭐ (解决 RLVR 训练的关键瓶颈)