LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards¶
会议: ICLR 2026
arXiv: 2603.02146
代码: real-absolute-AI/LongRLVR
领域: llm_efficiency
关键词: RLVR, 长上下文推理, 上下文定位, 可验证奖励, 梯度消失, GRPO
一句话总结¶
提出 LongRLVR,通过在 RLVR 训练中引入可验证的上下文奖励(context reward),解决长上下文场景下仅靠最终答案奖励导致的上下文定位(grounding)梯度消失问题,显著提升 LLM 长上下文推理能力。
研究背景与动机¶
- RLVR 在长上下文中失效:RLVR(如 DeepSeek-R1)在数学/编程等依赖参数化知识的推理任务上表现优异,但在长上下文场景(需要从外部文档中检索和推理)中效果不佳
- 上下文定位是核心瓶颈:长上下文推理需要先准确定位相关证据(contextual grounding),再基于证据生成答案;仅靠最终答案奖励的信号过于稀疏,无法有效引导定位过程
- 梯度消失的理论证明:作者从理论上证明,outcome-only reward 导致 grounding head 的梯度被"激活事件"概率 Pr(ε_j) 缩放——即只有当其他所有必要证据已被选中时,选中某个证据 chunk 才能获得正梯度信号,这在训练初期几乎不可能发生
- 实验验证:naive RLVR 训练时,上下文召回率(contextual recall)快速停滞,直接限制了答案准确率的提升上限(Figure 1)
方法详解¶
整体框架¶
将长上下文 RLVR 策略显式分解为两阶段: - Grounding Head \(\pi_\theta^{gnd}(Z|X,Q)\):从上下文 X 中选择相关证据子集 Z - Answer Head \(\pi_\theta^{ans}(y|X,Q,Z)\):基于选中证据生成最终答案 y
训练时,模型先生成 chunk 标识符列表(grounding),再生成最终答案。
可验证上下文奖励¶
总奖励 = 答案奖励 + 上下文奖励:
\[r_{total}(y,Z) = r_{ans}(y) + r_{ctx}(y,Z,G)\]
上下文奖励采用调制 F-score 设计:
\[r_{ctx}(y,Z,G) = \eta \cdot F_\beta(Z,G) + (1-\eta) \cdot r_{ans}(y) \cdot F_\beta(Z,G)\]
- 无条件定位奖励 \(\eta \cdot F_\beta\):为 grounding 提供稳定的密集学习信号
- 协同成功奖励 \((1-\eta) \cdot r_{ans} \cdot F_\beta\):只有答案正确时才解锁完整的定位奖励,防止定位与最终目标脱钩
- 超参数:\(\eta=0.1\),\(\beta=2\)(偏重召回)
理论保证(Proposition 2)¶
上下文奖励为每个 ground-truth chunk \(c_j\) 提供的梯度包含 \(\alpha_j \cdot Var(z_j)\) 项,该项不依赖稀有的"激活事件"概率,从而消除梯度消失。
合成数据流水线¶
- 从 book/arXiv/code 领域采集 8K-64K token 长文档
- 语义聚类→每个聚类用 Qwen3-235B 生成候选 QA 对并标注 grounding chunks
- 两阶段拒绝采样(簇内最优→文档最优),质量评分 > 9/10
- 最终生成 46K 高质量长上下文 QA 数据
实验¶
主实验(Table 1)¶
| 模型 | RULER-QA (AVG) | LongBench v2 | LongReason (AVG) |
|---|---|---|---|
| Qwen2.5-14B-1M (base) | 75.20 | 40.2 | 73.55 |
| +RLVR | 73.17 | 39.8 | 72.33 |
| +LongRLVR | 88.90 | 46.5 | 78.42 |
| Qwen2.5-7B-1M (base) | 65.00 | 33.0 | 66.45 |
| +RLVR | 66.90 | 32.4 | 69.27 |
| +LongRLVR | 78.67 | 38.6 | 79.22 |
| LLaMA-3.1-8B (base) | 62.77 | 30.4 | 49.31 |
| +RLVR | 67.80 | 32.4 | 49.62 |
| +LongRLVR | 80.33 | 36.2 | 53.23 |
- Qwen2.5-14B-LongRLVR 超越 Qwen3-14B(RULER-QA 88.90 vs 87.60)和 QwenLong-L1-32B
- Qwen2.5-7B-LongRLVR 在 LongReason 上大幅超越 LLaMA-3.1-70B(79.22 vs 57.59)
消融实验¶
| 消融维度 | 关键发现 |
|---|---|
| 奖励组件(Figure 3) | answer-only 召回停滞→性能天花板;context-only 召回高但答案不准;两者协同最优 |
| 数据质量(Figure 4) | 拒绝采样 best > median > worst(38.6 vs 36.6 vs 34.8);过滤简单题有效,过滤难题有害 |
| η 混合因子(Figure 5a) | η=0.1 最优;η=0 初始信号太稀疏;η=1 定位与答案脱耦 |
| F-score β(Figure 5b) | β=2 最优;偏重召回对多证据推理至关重要 |
| chunk 数量(Figure 5c) | 16-128 chunks 性能稳健,模型学到语义级定位而非依赖分块策略 |
亮点¶
- 从理论(梯度消失证明)和实验双重角度揭示 outcome-only RLVR 在长上下文中的根本缺陷,分析严谨
- 上下文奖励的设计巧妙:调制 F-score 同时兼顾密集信号和目标对齐,避免 reward hacking
- 7B/14B 小模型训练后超越 70B+ 大模型甚至专用推理模型(Qwen3-14B),参数效率极高
- 对 chunk 数量的鲁棒性说明模型学到了真正的语义定位能力
局限性¶
- 需要 ground-truth grounding chunks 标注,依赖高质量合成数据流水线,泛化到无标注场景未验证
- 仅在 QA 任务上验证,对摘要、信息抽取等其他长上下文任务的效果未知
- 训练数据长度限于 8K-64K tokens,对更长上下文(如 256K+)的可扩展性未探讨
- F-score 奖励假设 chunk 粒度的标注是可用的,实际应用中获取此类标注可能代价高昂
- 理论分析基于独立 chunk 选择假设,实际 LLM 的自回归生成中 chunk 选择存在依赖
相关工作¶
- RLVR 推理增强: DeepSeek-R1, Kimi, DAPO 等——本文指出它们在长上下文中的局限
- 长上下文对齐: RoPE 扩展 (YaRN, LongRoPE)、长上下文 SFT/DPO——本文是 RLVR 路线的改进
- QwenLong-L1-32B: 基于推理模型的长上下文 RLVR——LongRLVR 用更小模型达到可比性能
- 长上下文 Agent: 分块-多轮协作方案——与本文正交,可结合使用
评分¶
⭐⭐⭐⭐ (4/5)
- 新颖性: ⭐⭐⭐⭐ — 理论驱动的奖励设计思路清晰,梯度消失分析是核心贡献
- 实验充分度: ⭐⭐⭐⭐ — 多模型、多基准、丰富消融,数据覆盖全面
- 写作质量: ⭐⭐⭐⭐⭐ — 理论与实验衔接紧密,论述逻辑清晰
- 实用价值: ⭐⭐⭐⭐ — 对长上下文 RLVR 训练有直接指导意义,但需合成标注数据