The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning¶

会议: NeurIPS 2025
arXiv: 2506.01347
代码: GitHub
领域: 强化学习与推理
关键词: 负强化, 正强化分解, Pass@k, 推理多样性, 梯度分析

一句话总结¶

揭示RLVR中负强化（仅惩罚错误）的効果超出预期，通过梯度分析说明其保持输出多样性和推理能力的机制，并提出改进的加权REINFORCE算法。

RLVR目标函数分解为两部分：

L_RLVR(θ) = L_PSR(θ) + L_NSR(θ)

其中： - 正样本强化 (PSR): -E[∑_y:r(x,y)=1 π_θ(y|x)] - 负样本强化 (NSR): -E[∑_y:r(x,y)=-1 (-π_θ(y|x))]

1. 梯度分析:

PSR梯度 (对于采样token): ∂L_PSR/∂z_v ∝ π_v(1-π_v) (增加采样token) ∝ -π_yt·π_v (减少其他token)

NSR梯度 (对于采样token): ∂L_NSR/∂z_v ∝ -π_v(1-π_v) (减少错误token) ∝ π_yt·π_v (按照现有概率重新分配)

关键洞察： - PSR导致分布尖峰化（sharpens distribution） - NSR保持分布的形状，只抑制错误

2. 加权REINFORCE: 通过upweight NSR项改进标准REINFORCE：

J(θ) = αL_NSR(θ) + L_PSR(θ) (α>1调节)

k值	Base	PPO	GRPO	PSR	NSR	W-Reinforce
1	63.2%	76.6%	76.3%	74.1%	75.7%	76.6%
4	83.7%	86.7%	85.6%	81.6%	86.9%	87.1%
16	91.6%	91.7%	90.6%	86.2%	92.4%	92.4%
64	95.2%	94.7%	93.6%	89.3%	95.3%	95.3%
256	96.9%	96.3%	95.5%	91.2%	96.9%	96.7%

方法	Pass@1	Pass@4	Pass@16	Pass@64	Pass@256
Base	6.1%	13.8%	22.2%	30.8%	46.7%
PPO	8.5%	18.0%	26.6%	33.8%	43.3%
GRPO	10.3%	19.4%	28.4%	37.3%	50.0%
NSR	10.0%	19.2%	29.3%	40.2%	53.3%
W-Reinforce	10.6%	20.0%	29.7%	40.5%	56.7%

方法	MATH Pass@1	MATH Pass@64	AMC23	关键发现
Base	73.3%	94.5%	89.5%	隐藏能力
PSR	67.8%	93.0%	85.2%	失败激活
NSR	94.0%	98.0%	96.5%	成功激活
GRPO	93.9%	98.2%	96.2%	可比性能

⭐⭐⭐⭐⭐