LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts¶

会议: ICLR 2026 Oral
arXiv: 2510.19363
代码: 有（附补充材料提供训练代码和 KeyChain 数据合成代码）
领域: LLM推理 / 长上下文推理
关键词: long-context reasoning, reinforcement learning, GRPO, multi-hop QA, emergent reasoning patterns

一句话总结¶

提出 LoongRL，通过构建 KeyChain 合成数据进行强化学习训练，使 LLM 涌现出 plan–retrieve–reason–recheck 的长上下文推理模式，仅在 16K 上下文上训练即可泛化到 128K，14B 模型达到 74.2 分接近 o3-mini (74.5) 和 DeepSeek-R1 (74.9)。

研究背景与动机¶

领域现状：当前 LLM 推理方面的进展（如 DeepSeek-R1、o1）主要集中在短上下文推理任务（数学、代码），通过 RL 引导模型产生更长的 chain-of-thought 和自我反思。对于长上下文推理——需要在数千 token 的外部输入中检索并整合信息——则基本未被探索。
现有痛点：(a) 现有长上下文模型虽然支持长窗口（128K+），但主要只擅长检索，在需要推理的场景下表现差；(b) 用于 RL 训练的高难度长上下文数据极度稀缺，答案形式多样导致验证困难；(c) 将 RL rollout 从短文本（<1K）扩展到 128K 上下文计算成本极高；(d) 仅在长上下文数据上训练会退化短上下文能力。
核心矛盾：长上下文推理需要独特的思维模式（先规划→再检索→再推理→再验证），但这种模式无法通过简单的 SFT 或 prompting 获得，需要 RL 来探索和激励。然而，适合 RL 训练的数据不存在——必须足够难以触发推理，必须需要从长上下文中检索信息，且答案必须可验证。
本文要解决什么？ (a) 如何设计高质量 RL 训练数据来激励长上下文推理？ (b) 如何在短上下文上训练但泛化到超长上下文？ (c) 如何保持短上下文能力不退化？
切入角度：作者观察到，如果 RL 数据本身就需要"追踪线索链→找到真正问题→检索→推理"这种多步操作，模型就会涌现出结构化的长上下文推理模式。这个模式一旦学会，就可以泛化到任意长度。
核心idea一句话：通过在短多跳 QA 中插入 UUID 链条隐藏真实问题（KeyChain），构造高难度 RL 训练数据，使 LLM 涌现 plan-retrieve-reason-recheck 推理模式并泛化到 128K 上下文。

方法详解¶

整体框架¶

LoongRL 的 pipeline：(1) 从现有多跳 QA 数据集出发 → (2) 通过 KeyChain 方法将其变为高难度长上下文问题 → (3) 用 GRPO 算法进行多阶段 RL 训练 → (4) 混合数学和检索数据保持短上下文能力。输入是 ~16K token 的长文本 + 问题，输出是包含推理过程的回答。

关键设计¶

KeyChain 数据构造
做什么：将简单的短文本多跳 QA 转变为高难度长上下文推理任务
核心思路：首先从 HotpotQA、MuSiQue、2WikiMultiHopQA 中筛选中等难度的 QA 对（277K→72K，过滤方式：用 Qwen2.5-32B 回答 8 次，保留 pass rate 在 0-1 之间的），然后 (a) 插入无关文档扩展到 ~16K token，(b) 插入多条 UUID key-value 链，其中一条链最终指向原始问题 \(o\_q_i\)，其余链指向干扰问题。每个 key 是 32 字符 UUID（0-9, A-F），value 包含下一个 key 或最终问题。模型必须从初始 key 追踪正确链条 → 找到隐藏的真实问题 → 在长上下文中检索相关信息 → 推理得出答案
设计动机：仅靠增加干扰文档，难度提升有限，模型仍可直接检索。KeyChain 的妙处在于迫使模型先"找到问题是什么"，这个预处理步骤天然引导模型形成规划-检索-推理的结构化思维
Two-way Substring Exact Match 奖励验证器
做什么：为 RL 提供可靠的 binary 奖励信号
核心思路：\(r_i = 1\) 当且仅当 \(a \subseteq y_{\text{ans}} \lor y_{\text{ans}} \subseteq a\)，即预测答案包含 ground truth，或 ground truth 包含预测答案（双向子串匹配）。模型被要求将最终答案放在 \boxed{} 中以便提取
设计动机：通用 QA 答案形式多样（不像数学有唯一解），strict exact match 过于严格会惩罚正确但格式不同的答案，F1 score 和 LLM-as-a-judge 效果不佳且后者还需额外模型开销。双向子串匹配在宽容度和准确性间取得好平衡
三阶段多课程 RL 训练
做什么：渐进式提升任务难度，避免一开始就给太难的数据导致训练不稳定
核心思路：
- Warm-up（42 steps, 仅 7B 需要）: 在无 KeyChain 的数据上训练（标准多跳 QA + 检索 + 数学），提升基础能力
- Stage I（168 steps）: 加入 KeyChain 数据，鼓励模型学习 plan-retrieve-reason-recheck 模式
- Stage II（~120-150 steps）: 对每个样本生成 8 条 rollout，丢弃全部答对的样本（~60-70%），仅在剩余困难样本上继续训练，避免在已掌握问题上过拟合
设计动机：小模型（7B）初始能力弱，直接上 KeyChain 会导致所有 rollout 都失败（reward 全为 0），无法产生有效梯度；大模型（14B）可跳过 warm-up
混合数据配方
做什么：平衡长上下文推理和短上下文通用能力
核心思路：训练数据包含 7,500 KeyChain QA + 7,500 标准多跳 QA + 1,024 needle retrieval + 5,000 数学题（DAPO + MATH），全部限制在 ~16K 上下文长度内
设计动机：纯长上下文训练会退化短上下文能力（R1-distill 系列和 QwenLong-L1 均有此问题），加入数学数据可保持通用推理

损失函数 / 训练策略¶

采用 GRPO (Group Relative Policy Optimization)，group size \(G=8\)，学习率 \(1 \times 10^{-6}\)，cosine decay，KL penalty \(\beta=0.001\)，去掉熵损失项（避免训练不稳定）。最大输出长度 4,096 token，推理时温度 0.6, top-p 0.95。

实验关键数据¶

主实验¶

模型	LongBench v1 Avg	HotpotQA	2Wiki	MuSiQue	NarrativeQA	QASPER
o3-mini	74.5	83.0	89.0	64.0	60.7	60.5
DeepSeek-R1	74.9	82.7	91.3	72.2	66.9	61.4
QwenLong-L1-32B	70.1	80.7	89.1	65.2	58.6	56.7
Qwen2.5-7B-Instruct	48.9	69.5	50.5	34.0	44.5	46.0
LoongRL-7B	72.4	83.1	91.1	65.6	58.4	63.6
Qwen2.5-14B-Instruct	53.1	74.0	60.5	36.5	48.5	46.0
LoongRL-14B	74.2	82.2	93.3	67.5	63.4	64.5

消融实验¶

配置	LongBench v1 Avg	说明
Qwen2.5-7B-Instruct	48.9	基线
LoongRL-7B (no KeyChain)	66.2	用等量普通多跳 QA 替代 KeyChain
LoongRL-7B (full)	72.4	完整模型，KeyChain 贡献 +6.2%

奖励验证器	Avg	说明
F1 score	65.1	不够精确
LLM-as-a-judge	65.2	需额外模型且效果差
Exact match	69.2	过于严格
Two-way Substring (ours)	72.4	最优

关键发现¶

KeyChain 是核心贡献：去掉 KeyChain 后性能从 72.4 降至 66.2，差距巨大。KeyChain 训练的模型会涌现显式的 plan 步骤和 recheck 行为，而无 KeyChain 模型的推理和检索混在一起，缺乏规划
16K 训练泛化到 128K：LoongRL-7B 在 RULER 128K 上达到 76.8（基线 69.4），LoongRL-14B 达到 79.9（基线 73.6）。NarrativeQA 32K-64K 区间分别提升 +14.8% 和 +16.0%
奖励验证器对比：双向子串匹配显著优于 F1、LLM judge 和 exact match，说明对 QA 这类开放式答案，恰当的验证松弛很重要
Needle-in-a-haystack 完美通过：LoongRL-7B 在所有深度和长度上达到 100% 准确率，甚至基线 Qwen2.5-7B 和 QwenLong-L1-32B 都无法完全通过
短上下文能力保持：MMLU 提升 +2.8%/+1.1%，IFEval 仅微降 -0.3%/-2.6%，数学保持稳定

亮点与洞察¶

KeyChain 数据构造思路极其巧妙：通过在数据层面引入"先找问题再答题"的结构，自然引导模型涌现规划能力。这个思路可以迁移到其他需要结构化推理的任务——不是直接教模型怎么推理，而是设计数据让模型必须推理才能答题
短训练长泛化：仅 16K 训练泛化到 128K 是一个重要发现，说明推理模式一旦学会就是长度无关的。这大幅降低了长上下文 RL 训练的成本（否则 128K rollout 的 GPU 成本不可承受）
双向子串匹配：简单但有效的奖励设计，解决了 QA 答案多样性问题，避免了 LLM-as-a-judge 的额外开销和 reward hacking 风险。可直接复用到其他开放式 QA 的 RL 训练
多阶段课程学习：warm-up → KeyChain → hard-mining 的策略非常实用。特别是 Stage II 的 hard-mining（丢弃全答对样本）策略，避免在简单样本上浪费计算

局限性 / 可改进方向¶

仅评估 QA 类型任务：LongBench 和 NarrativeQA 主要是抽取式/生成式 QA，未测试长文档摘要、跨文档推理等其他长上下文任务类型
训练长度固定 16K：虽然 16K→128K 泛化效果好，但对于更长上下文（256K, 1M）是否仍有效未被验证
KeyChain 合成较人工：UUID 链条是完全人工构造的，与真实世界的"信息追踪"任务存在分布差距。能否设计更自然的 KeyChain 变体？
仅用 Qwen 系列实验：未在 LLaMA、Mistral 等其他架构上验证泛化性
涌现模式的分析不够深入：plan-retrieve-reason-recheck 模式是否总是稳定出现？failure case 长什么样？

评分¶

新颖性: ⭐⭐⭐⭐ KeyChain 数据构造非常有创意，但底层 RL 框架（GRPO）本身并非新方法
实验充分度: ⭐⭐⭐⭐⭐ 对比全面（含 o3-mini、R1），消融充分（KeyChain、验证器、训练策略），还有 128K 泛化和 NIAH 测试
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，方法描述流畅，图表直观，附录详尽含训练轨迹对比
价值: ⭐⭐⭐⭐⭐ 为长上下文 LLM 推理提供了高效且可复现的方案，KeyChain 数据构造可被广泛复用