跳转至

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

会议: NeurIPS 2025
arXiv: 2506.01347
代码: GitHub
领域: 强化学习与推理
关键词: 负强化, 正强化分解, Pass@k, 推理多样性, 梯度分析

一句话总结

揭示RLVR中负强化(仅惩罚错误)的効果超出预期,通过梯度分析说明其保持输出多样性和推理能力的机制,并提出改进的加权REINFORCE算法。

研究背景与动机

  1. 理解机制: RLVR的成功机制(正确vs错误样本的作用)尚未充分理解
  2. 多样性困境: 正样本强化往往导致过拟合,降低多样性
  3. Pass@k性能: 大k值下模型往往下降,表明多样性被破坏
  4. 研究机会: 系统分解PSR和NSR,理解各自的作用和权衡

方法详解

整体框架

RLVR目标函数分解为两部分:

L_RLVR(θ) = L_PSR(θ) + L_NSR(θ)

其中: - 正样本强化 (PSR): -E[∑_y:r(x,y)=1 π_θ(y|x)] - 负样本强化 (NSR): -E[∑_y:r(x,y)=-1 (-π_θ(y|x))]

关键设计

1. 梯度分析:

PSR梯度 (对于采样token): ∂L_PSR/∂z_v ∝ π_v(1-π_v) (增加采样token) ∝ -π_yt·π_v (减少其他token)

NSR梯度 (对于采样token): ∂L_NSR/∂z_v ∝ -π_v(1-π_v) (减少错误token) ∝ π_yt·π_v (按照现有概率重新分配)

关键洞察: - PSR导致分布尖峰化(sharpens distribution) - NSR保持分布的形状,只抑制错误

2. 加权REINFORCE: 通过upweight NSR项改进标准REINFORCE:

J(θ) = αL_NSR(θ) + L_PSR(θ) (α>1调节)

实验关键数据

Pass@k性能曲线 (Qwen2.5-Math-7B on MATH)

k值 Base PPO GRPO PSR NSR W-Reinforce
1 63.2% 76.6% 76.3% 74.1% 75.7% 76.6%
4 83.7% 86.7% 85.6% 81.6% 86.9% 87.1%
16 91.6% 91.7% 90.6% 86.2% 92.4% 92.4%
64 95.2% 94.7% 93.6% 89.3% 95.3% 95.3%
256 96.9% 96.3% 95.5% 91.2% 96.9% 96.7%

AIME 2025成绩 (关键表1下部)

方法 Pass@1 Pass@4 Pass@16 Pass@64 Pass@256
Base 6.1% 13.8% 22.2% 30.8% 46.7%
PPO 8.5% 18.0% 26.6% 33.8% 43.3%
GRPO 10.3% 19.4% 28.4% 37.3% 50.0%
NSR 10.0% 19.2% 29.3% 40.2% 53.3%
W-Reinforce 10.6% 20.0% 29.7% 40.5% 56.7%

训练动态分析 (Figure 5)

度量 Base PSR NSR GRPO 观察
Pass@1准确度 63.2% 74.1%↗ 75.7%↗ 76.3%↗ 都改进
熵(Entropy) 急降 维持高 缓降 NSR保持多样性
正确样本比 - 快上升 缓上升 中等 PSR过度拟合
全解样本比 - 高完成 低完成 中等 NSR避免过度

Qwen3-4B实验 (非thinking模式)

方法 MATH Pass@1 MATH Pass@64 AMC23 关键发现
Base 73.3% 94.5% 89.5% 隐藏能力
PSR 67.8% 93.0% 85.2% 失败激活
NSR 94.0% 98.0% 96.5% 成功激活
GRPO 93.9% 98.2% 96.2% 可比性能

亮点与洞察

  1. 反直觉发现: 仅惩罚错误(NSR)的性能可与奖励正确的PPO/GRPO相当甚至更优
  2. 多样性保护: NSR通过按照prior重分配而不是sharpening,天然保护输出多样性
  3. 隐藏能力激发: NSR能激发模型的潜在能力,而PSR可能压制(Qwen3-4B实验)
  4. 梯度机制清晰: token级的梯度分析完整解释了PSR vs NSR的本质差别

局限性

  1. 模型依赖: Llama-3.1显示RL对其无效(图4),说明backbone决定成败
  2. 推广性: 主要在数学推理上验证,其他领域(代码、NLP)的效果未知
  3. 理论深度: 梯度分析完成,但缺乏为何保持prior分布最优的理论

相关工作

  • RL for reasoning: PPO、GRPO、REINFORCE标准算法
  • 信息论: 困惑度、熵、KL散度
  • RL分析: Policy gradient理论、Actor-Critic方法
  • 推理模型: o1、DeepSeek-R1、Qwen3

评分

⭐⭐⭐⭐⭐