THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning¶

会议: ICLR 2026
arXiv: 2509.13761
代码: GitHub
领域: LLM Reasoning / Mathematical Reasoning
关键词: tool-integrated reasoning, hierarchical RL, GRPO, code generation, self-correction, mathematical reasoning

一句话总结¶

提出 THOR，通过 TIRGen 数据构建管线 + 层次化强化学习（episode 级+step 级优化）+ 自修正推理机制，系统性解决 LLM 工具集成数学推理中的数据构建、细粒度优化和推理增强三大挑战。

背景与动机¶

LLM 作为概率 next-token 预测器在高精度任务（数值计算、符号操作）上天然不足
工具集成推理（TIR）是克服此瓶颈的有力范式，但面临三大挑战：
数据构建: 用外部大模型 prompt 合成数据存在风格不匹配，对推理模型（如 DeepSeek-R1）效果差
细粒度优化: 现有 RL 方法仅做 episode 级优化，忽略中间代码步骤的细粒度更新，导致稀疏奖励问题
推理增强: 单 pass 推理忽略了工具即时反馈的修正作用
纯 CoT 方法（搜索/RL）和纯代码方法各有局限，需将语义推理与精确执行结合
SFT 方法需大量高质量示范数据且泛化差；现有 RL 方法奖励过于稀疏
关键洞察：中间工具调用的成功是最终答案正确性的强预测因子
START 等方法用规则注入代码 prompt，但难以准确定位插入位置

方法（框架/设计）¶

TIRGen 数据构建管线:
Generator 生成自然语言推理步骤（限长 \(L_{step}\)）
Refiner 评估哪些步骤可转为代码，与代码解释器交互获取精确结果
优势：数据与 Generator 策略对齐（Refiner 仅看单步不看全题）；降低对大模型依赖
多阶段过滤：格式一致性 → 代码质量（需有库调用或控制流）→ 难度平衡
层次化 RL 训练:
Cold Start: 用 \(\mathcal{D}_{SFT}\) 做 SFT 建立工具调用基础模式
Episode 级优化: GRPO + 最终答案正确性奖励，过滤执行失败轨迹以避免不当惩罚
Step 级优化: 对执行失败的代码步进行回溯（保留推理前缀 \(r_{pre}^t\)，重新生成后缀+代码），以代码执行成功率为奖励
总损失: \(\mathcal{L} = \mathcal{L}^{epis} + \mathcal{L}^{step}\)，两级均采用 GRPO + VAPO 式 NLL 损失
自修正推理机制: 推理时代码执行失败则回溯到推理前缀重新生成，最多修正 \(N_{corr}\) 次，增量计算成本极小

实验关键数据¶

Benchmark	THOR 表现
MATH500	SOTA (同规模模型)
AIME 2024/2025	SOTA
AMC	SOTA
Minerva Math	SOTA
Olympiad Bench	SOTA
HumanEval/MBPP/LiveCodeBench	代码任务也有一致提升

跨模型泛化：在推理模型和非推理模型上均有效
层次化 RL 相比纯 episode RL 显著提升，验证了 step 级优化的必要性
自修正机制在降低推理开销的同时提升鲁棒性
统计验证了"中间工具调用成功 ↔ 最终答案正确"的相关性

亮点¶

三位一体框架系统性解决 TIR 的数据/优化/推理三大挑战
TIRGen 的 Generator-Refiner 分工设计巧妙：保持策略对齐+降低大模型依赖
Step 级 RL 的回溯+重生成设计精确瞄准代码错误步，缓解长推理链稀疏奖励
自修正机制几乎无额外成本（仅重新生成后缀和动作）

局限性¶

缓存文件截断，未能看到完整实验数据表
Step 级优化依赖代码执行是否成功作为信号，对逻辑正确但执行报错的情况可能产生误判
回溯机制的 \(L_{suf}\) 和 \(N_{corr}\) 需调参，未讨论敏感性
TIRGen 的 Refiner 仍需一定代码能力的模型，适用范围需验证
仅关注数学推理，未验证在其他工具使用场景（如搜索、API 调用）的推广性

评分¶

新颖性: ⭐⭐⭐⭐ (层次化 RL 和 TIRGen 管线均有创新)
实验充分度: ⭐⭐⭐⭐ (多 benchmark SOTA，跨模型验证)
写作质量: ⭐⭐⭐⭐ (形式化严谨，算法描述详尽)
价值: ⭐⭐⭐⭐⭐ (TIR 领域的系统性贡献，实用性强)