Nudging the Boundaries of LLM Reasoning¶

会议: ICLR2026
arXiv: 2509.25666
代码: GitHub
领域: llm_reasoning
关键词: 强化学习推理, GRPO改进, 自生成hint, 上界突破, 近侧发展区

一句话总结¶

指出GRPO无法从"不可解"问题(0% pass rate)学习的根本局限，提出NuRL方法在训练时对难题注入自生成的抽象hint(不泄露答案)使其变为可学习样本，在6个benchmark和3个模型上一致超越GRPO且能提升模型能力上界(pass@k)。

背景与动机¶

在线RL(GRPO)的核心限制：对于模型完全无法解出的难题(pass rate=0%)，advantage=0无梯度，无法学习
RL后训练主要做"分布锐化"——提高已知解法的生成概率，而非发现新推理能力
pass@k(大k)在RL训练后常不变，说明模型的能力上界未被突破
这些难题虽"不可解"但包含丰富学习信号——正对应Vygotsky的"近侧发展区"概念
难题比简单题提供更有价值的训练信号(暴露模型弱点)
需要一种不依赖外部强模型的方式来"nudge"模型突破能力边界

方法详解¶

NuRL (Nudging LLM with Reinforcement Learning)： 1. 离线Hint收集：给定(问题q, 正确答案a)，先让模型生成解释为什么答案正确的CoT，再从CoT抽象出高层hint(核心知识线索，不包含具体答案或步骤) 2. 在线Rollout增强：GRPO训练中，对每个问题生成\(\mathcal{G}\)个rollout；若全部失败(pass rate=0%)，将hint拼接到问题末尾，重新生成\(\mathcal{G}-1\)个带hint的rollout + 1个不带hint的rollout 3. 推理时不用hint：训练时的hint帮助模型内化推理模式，推理时只用原始问题

Hint类型探索： - 抽象线索(最佳) > 部分步骤 > 解释 > 直接答案(最差) - 关键发现：暴露越多答案信息，性能越差——与人类学习规律一致

两阶段训练：Stage 1: 标准GRPO训练至收敛；Stage 2: NuRL继续训练(对Stage 1的unsolvable问题注入hint)

实验关键数据¶

模型	方法	MATH500	AIME	GPQA	MMLU-Pro	平均
Llama-3B	GRPO	56.92	8.33	27.98	34.78	35.87
Llama-3B	NuRL(Self)	58.04	9.17	28.28	36.18	37.49
OctoThinker-3B	GRPO	68.81	8.33	23.26	44.25	42.63
OctoThinker-3B	NuRL(Self)	70.13	9.66	27.15	45.54	44.38
Qwen3-4B	GRPO	96.52	60.83	62.50	72.65	79.31
Qwen3-4B	NuRL(Self)	96.46	63.54	62.88	72.83	80.10

NuRL(教师hint)进一步提升至+3.44%(Llama)
NuRL提升pass@1024而GRPO无法——证明能力上界被突破
与Self-Consistency互补：NuRL+SC提升9.4% vs GRPO+SC 7.8%

亮点¶

清晰指出GRPO无法学习不可解问题的根本限制——insight深刻
Vygotsky近侧发展区类比精准且有启发性
自生成hint无需外部模型——避免分布偏移且自给自足
"越抽象的hint越好"的发现反直觉但有力
两阶段策略(GRPO收敛→NuRL)简洁实用

局限性 / 可改进方向¶

改进幅度相对温和(+1-2%平均)，在强模型(Qwen3-4B)上提升有限
自生成hint质量受限于模型本身能力——极难问题可能生成不了有用hint
仅用二值判断(全失败/部分成功)决定是否注入hint，缺乏更细粒度的策略
离线hint收集需要gold answer，限制了在无答案场景的适用性
未探索hint的质量评估和动态更新机制

与相关工作的对比¶

vs GRPO/DAPO/Dr.GRPO: 这些方法改进advantage估计/KL/采样，NuRL正交地解决"不可解样本"问题
vs STaR(Zelikman等2022): STaR用answer-conditioned reasoning，NuRL进一步抽象为不泄露答案的hint
vs SFT+RL混合方法: NuRL不需要SFT阶段扩展知识范围，纯RL框架
vs TBA(Bartoldson等2025): TBA用多搜索节点生成多样轨迹，NuRL用hint降低问题难度

评分¶

新颖性: ⭐⭐⭐⭐ (GRPO上界限制的insight + 自生成hint方案)
实验充分度: ⭐⭐⭐⭐ (3模型6benchmark+多hint类型消融+pass@k分析)
写作质量: ⭐⭐⭐⭐⭐ (ZPD类比优美，动机→方法→实验逻辑流畅)
价值: ⭐⭐⭐⭐ (解决RL推理训练的实际瓶颈，方法简洁可落地)