跳转至

Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models

会议: ACL 2025
arXiv: 2501.11110
代码: https://github.com/microsoft/CoR (有)
领域: LLM推理 / 数学推理
关键词: 数学推理, 多范式推理, 自然语言推理, 符号推理, 定理证明

一句话总结

提出Chain-of-Reasoning(CoR)统一框架,将自然语言推理(NLR)、算法推理(AR)和符号推理(SR)三种范式整合在同一推理链中协同工作,配合渐进式范式训练(PPT)策略,使7B模型在定理证明上零样本超越GPT-4o 41%,在MATH上超越RL方法15%。

研究背景与动机

现有数学推理方法大多依赖单一推理范式,导致"偏科"问题严重: - NLR模型(如CoT推理)擅长算术计算但在形式化定理证明上表现差 - AR模型(如代码生成执行)擅长精确计算但缺乏高层次推理能力 - SR模型(如Lean证明搜索)擅长形式化证明但无法处理一般算术题

现有尝试要么通过工具整合(如NLR+代码执行器)来补强单范式,但本质仍依赖一种主范式;要么通过混合数据训练提升跨任务能力,但仍然每个任务只用一种范式解题。核心矛盾在于:这些方法忽视了第二种范式可以独立完成推理的可能性,只把它当辅助工具而非独立的推理路径。

CoR的核心idea:不同推理范式不应互相替代,而应链式协作——先用NLR分析问题建立直觉,再用SR形式化验证逻辑正确性,最后用AR精确计算得到答案,每种范式都产生完整的推理路径并相互参考。

方法详解

整体框架

给定数学问题 \(x\),CoR使模型依次经过三种推理范式 \(\Gamma = (\tau_1, \tau_2, \tau_3)\),每种范式产生独立的推理路径。范式之间是条件依赖关系:\(\tau_i \sim \mathbb{P}(\tau_i | x, \tau_1, ..., \tau_{i-1})\),最终综合所有范式的结果给出答案 \(y \sim \mathbb{P}(y | x, \tau_{NLR}, \tau_{SR}, \tau_{AR})\)

训练pipeline:(1) 构建MPM多范式数学数据集 → (2) PPT渐进范式训练 → (3) SMPS多范式采样推理。

关键设计

  1. 多范式数学数据集(MPM)构建:

    • 功能:将单范式数据集扩展为包含NLR、AR、SR三种推理路径的多范式数据
    • 核心思路:
      • Stage 1(重构+扩展):以Numina-TIR和Lean-Workbook为种子数据,利用GPT-4o生成缺失的推理范式 \(\tau_g \sim \mathbb{P}_\mathcal{G}(\tau_g | p_s \oplus x \oplus y \oplus \tau')\),并设计统一文本模板规范各范式的位置和关系
      • Stage 2(修正):将SR部分提交给Lean证明器验证,失败的样本通过DeepSeek-Prover-V1.5迭代修正(最多64轮),最终得到82,770道题目、167,412条多范式推理路径
    • 设计动机:现有数据集要么只有NLR要么只有SR,没有同一问题的多范式完整推理路径
  2. 渐进范式训练(PPT):

    • 功能:让模型分阶段逐步掌握多种推理范式
    • 核心思路:
      • Stage ①:仅NLR数据训练(Numina-CoT*),生成序列 \(z = [x]\tau_{NLR}y\),激活模型的数学理解能力
      • Stage ②:NLR+AR数据训练(Numina-TIR*),生成序列 \(z = [x]\tau_{NLR}\tau_{AR}y\),激活计算技能
      • Stage ③:NLR+AR+SR数据训练(MPM),生成序列 \(z = [x]\tau_{NLR}\tau_{AR}\tau_{SR}y\),学习形式化推理
      • 损失函数为标准语言建模损失:\(\mathcal{L} = -\sum_{t=1}^{|z|} \log \mathbb{P}_\theta(z_t | z_{<t})\)
    • 设计动机:从最熟悉的NLR到最不熟悉的SR渐进过渡,类似于从常识到形式化的认知递进,而非一次性混合训练
  3. 顺序多范式采样(SMPS):

    • 功能:推理时通过跨范式的层次化采样探索更大的解空间
    • 核心思路:先为第一个范式采样 \(J\) 条路径,再为每条路径的第二个范式采样 \(K\) 条路径,总共得到 \(J \times K\) 个候选答案,公式为 \(y_{jk} \sim \mathbb{P}(y_{jk} | x, \tau_{1j}, \tau_{2k})\)
    • 设计动机:相比单范式内的token级树搜索,跨范式采样能以更低成本探索更多样的解空间

损失函数 / 训练策略

标准自回归语言模型损失,三阶段顺序训练。基座模型为DeepSeekMath-7B-Base,也在Llama-3.1-8B上做了验证。推理时范式顺序可通过prompt灵活控制,支持NLR→SR→AR(最优)和NLR→AR→SR两种顺序。

实验关键数据

主实验(零样本)

数据集 指标 CoR-Math-7B InternLM2-Math-Plus-7B GPT-4o 提升
MATH Pass@1 66.7 53.0 76.6 +13.7 vs InternLM
GSM8K Pass@1 88.7 85.8 90.5 +2.9 vs InternLM
AMC2023 Maj@64 34/40 15/40 24/40 +19题 vs InternLM
AIME2024 Maj@64 12/30 1/30 3/30 +11题 vs InternLM
miniF2F Pass@128² 66.0 - 25.0 +41.0 vs GPT-4o

消融实验

配置 MATH GSM8K miniF2F 说明
DSM+NLR 27.8 33.9 - 仅自然语言推理
DSM+AR 37.6 75.8 - 仅算法推理
DSM+SR - - 44.3 仅符号推理
DSM+CoR 66.7 88.7 52.9 多范式协同
NLR→AR→SR 49.9 84.2 - AR在SR前
NLR→SR→AR 66.7 88.7 - SR在AR前(最优)

关键发现

  • 多范式协同远优于单范式:CoR在MATH上比最优单范式(AR)高出29.1%,证明范式间存在强协同效应
  • 范式顺序很重要:NLR→SR→AR(先形式化再计算)比NLR→AR→SR高出16.8%(MATH),因为SR的形式化分解为后续AR提供了结构化基础
  • PPT三阶段各有贡献:Stage ①(NLR)贡献最大(Llama从4.2提升到52.1),Stage ③(加入SR)仍带来显著增益,说明新范式能真正增强推理能力
  • 模型规模正相关:Qwen2.5-Math-7B在CoR上比1.5B版高7.1%(MATH),Llama-70B比8B高12.5%

亮点与洞察

  • "推理范式是可组合的"这一核心洞察极具价值:不同于工具增强推理(NLR+代码执行器)中范式的主从关系,CoR让每种范式都产生独立完整的推理路径,这是一种更根本的多模态推理思路
  • SMPS采样策略\(J \times K\) 跨范式组合采样比单范式内 \(N\) 次采样更高效地覆盖解空间,相当于在"方法多样性"而非"路径多样性"维度上做搜索
  • PPT的课程学习思路:从NLR→NLR+AR→NLR+AR+SR的渐进训练,避免了直接混合训练的不稳定性,可迁移到其他需要整合多种技能的场景
  • 零样本超越few-shot模型:CoR-Math-7B的零样本miniF2F 66.0%超过了所有few-shot专家模型,说明多范式内化比范式外示例更有效

局限与展望

  • 评估以零样本指标为主,与大多数采用few-shot设置的方法对齐困难
  • SMPS组合采样在大规模使用时开销较大(\(128 \times 128\)=16384次推理),缺少自适应退出机制
  • 目前仅覆盖NLR、AR、SR三种范式,是否可以引入更多范式(如视觉推理、物理推理)值得探索
  • 基座模型为7B规模,在更大模型(如70B)上的收益尚待充分验证

相关工作与启发

  • vs NuminaMath-TIR: NuminaMath采用工具集成单范式(NLR+代码片段),CoR将AR提升为完整的独立推理路径,MATH上高出11.4%
  • vs DeepSeek-Prover-V1.5: DeepSeek专注单一SR范式的大规模搜索(32×6400),CoR用更少搜索量(128×128)通过多范式协同实现更高性能
  • vs Qwen2.5-Math: Qwen2.5-Math-7B-Instruct在MATH上83.6%高于CoR的66.7%,但Qwen是用大规模RL训练的纯算术专家,不具备定理证明能力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 多范式链式推理是一个全新视角,从根本上改变了数学推理的范式
  • 实验充分度: ⭐⭐⭐⭐⭐ 五个benchmark覆盖算术和定理证明,消融实验非常系统
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,但符号较多需要仔细理解
  • 价值: ⭐⭐⭐⭐⭐ 开辟了多范式协同推理的新方向,对数学AI发展有重要推动

相关论文