Nudging the Boundaries of LLM Reasoning¶
会议: ICLR2026
arXiv: 2509.25666
代码: GitHub
领域: llm_reasoning
关键词: 强化学习推理, GRPO改进, 自生成hint, 上界突破, 近侧发展区
一句话总结¶
指出GRPO无法从"不可解"问题(0% pass rate)学习的根本局限,提出NuRL方法在训练时对难题注入自生成的抽象hint(不泄露答案)使其变为可学习样本,在6个benchmark和3个模型上一致超越GRPO且能提升模型能力上界(pass@k)。
背景与动机¶
- 在线RL(GRPO)的核心限制:对于模型完全无法解出的难题(pass rate=0%),advantage=0无梯度,无法学习
- RL后训练主要做"分布锐化"——提高已知解法的生成概率,而非发现新推理能力
- pass@k(大k)在RL训练后常不变,说明模型的能力上界未被突破
- 这些难题虽"不可解"但包含丰富学习信号——正对应Vygotsky的"近侧发展区"概念
- 难题比简单题提供更有价值的训练信号(暴露模型弱点)
- 需要一种不依赖外部强模型的方式来"nudge"模型突破能力边界
方法详解¶
NuRL (Nudging LLM with Reinforcement Learning): 1. 离线Hint收集:给定(问题q, 正确答案a),先让模型生成解释为什么答案正确的CoT,再从CoT抽象出高层hint(核心知识线索,不包含具体答案或步骤) 2. 在线Rollout增强:GRPO训练中,对每个问题生成\(\mathcal{G}\)个rollout;若全部失败(pass rate=0%),将hint拼接到问题末尾,重新生成\(\mathcal{G}-1\)个带hint的rollout + 1个不带hint的rollout 3. 推理时不用hint:训练时的hint帮助模型内化推理模式,推理时只用原始问题
Hint类型探索: - 抽象线索(最佳) > 部分步骤 > 解释 > 直接答案(最差) - 关键发现:暴露越多答案信息,性能越差——与人类学习规律一致
两阶段训练:Stage 1: 标准GRPO训练至收敛;Stage 2: NuRL继续训练(对Stage 1的unsolvable问题注入hint)
实验关键数据¶
| 模型 | 方法 | MATH500 | AIME | GPQA | MMLU-Pro | 平均 |
|---|---|---|---|---|---|---|
| Llama-3B | GRPO | 56.92 | 8.33 | 27.98 | 34.78 | 35.87 |
| Llama-3B | NuRL(Self) | 58.04 | 9.17 | 28.28 | 36.18 | 37.49 |
| OctoThinker-3B | GRPO | 68.81 | 8.33 | 23.26 | 44.25 | 42.63 |
| OctoThinker-3B | NuRL(Self) | 70.13 | 9.66 | 27.15 | 45.54 | 44.38 |
| Qwen3-4B | GRPO | 96.52 | 60.83 | 62.50 | 72.65 | 79.31 |
| Qwen3-4B | NuRL(Self) | 96.46 | 63.54 | 62.88 | 72.83 | 80.10 |
- NuRL(教师hint)进一步提升至+3.44%(Llama)
- NuRL提升pass@1024而GRPO无法——证明能力上界被突破
- 与Self-Consistency互补:NuRL+SC提升9.4% vs GRPO+SC 7.8%
亮点¶
- 清晰指出GRPO无法学习不可解问题的根本限制——insight深刻
- Vygotsky近侧发展区类比精准且有启发性
- 自生成hint无需外部模型——避免分布偏移且自给自足
- "越抽象的hint越好"的发现反直觉但有力
- 两阶段策略(GRPO收敛→NuRL)简洁实用
局限性 / 可改进方向¶
- 改进幅度相对温和(+1-2%平均),在强模型(Qwen3-4B)上提升有限
- 自生成hint质量受限于模型本身能力——极难问题可能生成不了有用hint
- 仅用二值判断(全失败/部分成功)决定是否注入hint,缺乏更细粒度的策略
- 离线hint收集需要gold answer,限制了在无答案场景的适用性
- 未探索hint的质量评估和动态更新机制
与相关工作的对比¶
- vs GRPO/DAPO/Dr.GRPO: 这些方法改进advantage估计/KL/采样,NuRL正交地解决"不可解样本"问题
- vs STaR(Zelikman等2022): STaR用answer-conditioned reasoning,NuRL进一步抽象为不泄露答案的hint
- vs SFT+RL混合方法: NuRL不需要SFT阶段扩展知识范围,纯RL框架
- vs TBA(Bartoldson等2025): TBA用多搜索节点生成多样轨迹,NuRL用hint降低问题难度
评分¶
- 新颖性: ⭐⭐⭐⭐ (GRPO上界限制的insight + 自生成hint方案)
- 实验充分度: ⭐⭐⭐⭐ (3模型6benchmark+多hint类型消融+pass@k分析)
- 写作质量: ⭐⭐⭐⭐⭐ (ZPD类比优美,动机→方法→实验逻辑流畅)
- 价值: ⭐⭐⭐⭐ (解决RL推理训练的实际瓶颈,方法简洁可落地)