The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning¶
会议: NeurIPS 2025
arXiv: 2506.01347
代码: GitHub
领域: 强化学习与推理
关键词: 负强化, 正强化分解, Pass@k, 推理多样性, 梯度分析
一句话总结¶
揭示RLVR中负强化(仅惩罚错误)的効果超出预期,通过梯度分析说明其保持输出多样性和推理能力的机制,并提出改进的加权REINFORCE算法。
研究背景与动机¶
- 理解机制: RLVR的成功机制(正确vs错误样本的作用)尚未充分理解
- 多样性困境: 正样本强化往往导致过拟合,降低多样性
- Pass@k性能: 大k值下模型往往下降,表明多样性被破坏
- 研究机会: 系统分解PSR和NSR,理解各自的作用和权衡
方法详解¶
整体框架¶
RLVR目标函数分解为两部分:
L_RLVR(θ) = L_PSR(θ) + L_NSR(θ)
其中: - 正样本强化 (PSR): -E[∑_y:r(x,y)=1 π_θ(y|x)] - 负样本强化 (NSR): -E[∑_y:r(x,y)=-1 (-π_θ(y|x))]
关键设计¶
1. 梯度分析:
PSR梯度 (对于采样token): ∂L_PSR/∂z_v ∝ π_v(1-π_v) (增加采样token) ∝ -π_yt·π_v (减少其他token)
NSR梯度 (对于采样token): ∂L_NSR/∂z_v ∝ -π_v(1-π_v) (减少错误token) ∝ π_yt·π_v (按照现有概率重新分配)
关键洞察: - PSR导致分布尖峰化(sharpens distribution) - NSR保持分布的形状,只抑制错误
2. 加权REINFORCE: 通过upweight NSR项改进标准REINFORCE:
J(θ) = αL_NSR(θ) + L_PSR(θ) (α>1调节)
实验关键数据¶
Pass@k性能曲线 (Qwen2.5-Math-7B on MATH)¶
| k值 | Base | PPO | GRPO | PSR | NSR | W-Reinforce |
|---|---|---|---|---|---|---|
| 1 | 63.2% | 76.6% | 76.3% | 74.1% | 75.7% | 76.6% |
| 4 | 83.7% | 86.7% | 85.6% | 81.6% | 86.9% | 87.1% |
| 16 | 91.6% | 91.7% | 90.6% | 86.2% | 92.4% | 92.4% |
| 64 | 95.2% | 94.7% | 93.6% | 89.3% | 95.3% | 95.3% |
| 256 | 96.9% | 96.3% | 95.5% | 91.2% | 96.9% | 96.7% |
AIME 2025成绩 (关键表1下部)¶
| 方法 | Pass@1 | Pass@4 | Pass@16 | Pass@64 | Pass@256 |
|---|---|---|---|---|---|
| Base | 6.1% | 13.8% | 22.2% | 30.8% | 46.7% |
| PPO | 8.5% | 18.0% | 26.6% | 33.8% | 43.3% |
| GRPO | 10.3% | 19.4% | 28.4% | 37.3% | 50.0% |
| NSR | 10.0% | 19.2% | 29.3% | 40.2% | 53.3% |
| W-Reinforce | 10.6% | 20.0% | 29.7% | 40.5% | 56.7% |
训练动态分析 (Figure 5)¶
| 度量 | Base | PSR | NSR | GRPO | 观察 |
|---|---|---|---|---|---|
| Pass@1准确度 | 63.2% | 74.1%↗ | 75.7%↗ | 76.3%↗ | 都改进 |
| 熵(Entropy) | 高 | 急降 | 维持高 | 缓降 | NSR保持多样性 |
| 正确样本比 | - | 快上升 | 缓上升 | 中等 | PSR过度拟合 |
| 全解样本比 | - | 高完成 | 低完成 | 中等 | NSR避免过度 |
Qwen3-4B实验 (非thinking模式)¶
| 方法 | MATH Pass@1 | MATH Pass@64 | AMC23 | 关键发现 |
|---|---|---|---|---|
| Base | 73.3% | 94.5% | 89.5% | 隐藏能力 |
| PSR | 67.8% | 93.0% | 85.2% | 失败激活 |
| NSR | 94.0% | 98.0% | 96.5% | 成功激活 |
| GRPO | 93.9% | 98.2% | 96.2% | 可比性能 |
亮点与洞察¶
- 反直觉发现: 仅惩罚错误(NSR)的性能可与奖励正确的PPO/GRPO相当甚至更优
- 多样性保护: NSR通过按照prior重分配而不是sharpening,天然保护输出多样性
- 隐藏能力激发: NSR能激发模型的潜在能力,而PSR可能压制(Qwen3-4B实验)
- 梯度机制清晰: token级的梯度分析完整解释了PSR vs NSR的本质差别
局限性¶
- 模型依赖: Llama-3.1显示RL对其无效(图4),说明backbone决定成败
- 推广性: 主要在数学推理上验证,其他领域(代码、NLP)的效果未知
- 理论深度: 梯度分析完成,但缺乏为何保持prior分布最优的理论
相关工作¶
- RL for reasoning: PPO、GRPO、REINFORCE标准算法
- 信息论: 困惑度、熵、KL散度
- RL分析: Policy gradient理论、Actor-Critic方法
- 推理模型: o1、DeepSeek-R1、Qwen3
评分¶
⭐⭐⭐⭐⭐