Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective¶
会议: ACL 2025
arXiv: 2501.11110
代码: https://github.com/microsoft/CoR
领域: LLM推理
关键词: 数学推理, 多范式推理, 定理证明, 算术计算, 渐进训练
一句话总结¶
提出 Chain-of-Reasoning(CoR)框架,将自然语言推理(NLR)、算法推理(AR)和符号推理(SR)三种范式统一在一个推理链中,通过渐进范式训练(PPT)策略让 7B 模型(CoR-Math-7B)在零样本下超越 GPT-4o 41% 的定理证明准确率,在 MATH 基准上超过 RL 方法 15%。
研究背景与动机¶
-
领域现状:LLM 的数学推理主要依赖单一范式——NLR(如 Chain-of-Thought 分步推理)、AR(如生成 Python 代码执行)、或 SR(如 Lean 形式化证明)。研究者分别优化各范式,训练出针对特定任务的专家模型。
-
现有痛点:(a) 单范式模型能力不对称——擅长 NLR 的模型在定理证明上弱,反之亦然;(b) 即使引入工具辅助(如 CoT+代码执行),仍以单一范式为主导,忽略了其他范式独立推理的能力;(c) 跨任务泛化需要 few-shot 示例,零样本泛化困难。
-
核心矛盾:不同数学任务天然适合不同推理范式(算术适合 AR 精确计算、定理证明适合 SR 形式化验证、复杂问题适合 NLR 语义理解),但现有方法无法让模型在同一推理过程中灵活切换和协同使用多种范式。
-
本文要解决什么? 设计一个统一框架,让 LLM 在一次推理中依次使用 NLR、AR、SR 三种范式,各取所长,实现跨任务的综合数学能力。
-
切入角度:类比软件开发中模块化思想——每种范式是一个模块,CoR 让它们以链式组合方式协作,前一范式的输出为后一范式提供参考。
-
核心idea一句话:用三种推理范式的链式组合替代单一范式,以渐进训练策略让模型逐步掌握NLR→AR→SR,实现数学任务的统一求解。
方法详解¶
整体框架¶
输入:数学问题 \(x\)。输出:最终答案 \(y\)。推理过程:\(y \sim \mathbb{P}(y|x, \tau_{NLR}, \tau_{AR}, \tau_{SR})\),三种范式依次执行,每种范式可参考前面范式的结果。训练分构建 MPM 数据集和 PPT 渐进训练两部分。
关键设计¶
- 多范式推理数据集 MPM(Multi-Paradigm Mathematical):
- 做什么:为每个数学问题构建包含三种范式推理路径的训练数据 \(<x, NLR, SR, AR, y>\)
- 核心思路:两阶段——(a) 重构与扩展:以 Numina-TIR 和 Lean-Workbook 为种子,用 GPT-4o 生成缺失范式的推理路径,人工审核;(b) 修正:将 SR 部分(Lean 4 证明)提交给 Lean prover 验证,失败的用 DeepSeek-Prover-V1.5 修正,最多迭代 64 次。最终得到 82,770 个问题、167,412 条多范式推理路径
-
设计动机:现有数据集只有单范式标注,而 CoR 需要同一问题的三种范式推理路径作为训练信号。Lean prover 自动验证确保 SR 路径的正确性
-
渐进范式训练 PPT(Progressive Paradigm Training):
- 做什么:分三个阶段逐步引入更多推理范式
- 核心思路:
- 阶段 ①:仅 NLR,在 Numina-CoT* 上训练,生成序列 \(z = [x]\tau_{NLR}y\)
- 阶段 ②:NLR + AR,在 Numina-TIR* 上训练,序列 \(z = [x]\tau_{NLR}\tau_{AR}y\)
- 阶段 ③:NLR + AR + SR,在 MPM 数据集上训练,序列 \(z = [x]\tau_{NLR}\tau_{AR}\tau_{SR}y\)
-
设计动机:NLR 在预训练中最常见,最容易学习,作为基础;AR 次之(预训练包含代码语料);SR 最陌生,放在最后。渐进引入避免了直接学习三范式的困难,让模型在已掌握范式的基础上学习新范式
-
顺序多范式采样 SMPS(Sequential Multi-Paradigm Sampling):
- 做什么:推理时在范式级别(而非 token 级别)进行采样,组合多条推理路径
- 核心思路:对第一个范式采样 \(J\) 条路径,对每条后续范式采样 \(K\) 条路径,总共得到 \(J \times K\) 个候选答案,取多数投票。例如 \(128 \times 128 = 16384\) 条路径
-
设计动机:传统 tree search 在单范式内采样,CoR 在范式间采样,以更低成本探索更大的解空间。范式间的多样性远大于同一范式内的 token 多样性
-
可变推理深度:
- 做什么:根据任务类型调整使用的范式组合
- 核心思路:定理证明用 NLR→SR(Lean 4 证明可直接提取答案);算术计算用 NLR→SR→AR(最终用代码精确计算)。通过 prompt 控制
- 设计动机:不同任务对范式的需求不同,灵活组合兼顾效率和准确性
损失函数 / 训练策略¶
标准自回归损失 \(\mathcal{L} = -\sum_t \log \mathbb{P}_\theta(z_t|z_{<t})\)。基座模型用 DeepSeekMath-Base 7B。
实验关键数据¶
主实验¶
在 5 个数学基准上零样本评测。
| 模型 | MATH | GSM8K | AMC2023 | AIME2024 | miniF2F |
|---|---|---|---|---|---|
| GPT-4o | 76.6 | 90.5 | 24/40 | 3/30 | 25.0 |
| DeepSeekMath-7B-Base | 11.8 | 22.2 | 3/40 | 0/30 | 28.3 |
| InternLM2-Math-Plus-7B | 53.0 | 85.8 | 15/40 | 1/30 | 43.3 |
| CoR-Math-7B | 66.7 | 88.7 | 34/40 | 12/30 | 52.9 (Pass@128) |
| CoR-Math-7B (大预算) | - | - | - | - | 66.0 (Pass@16384) |
消融实验¶
| 配置 | MATH | miniF2F | 说明 |
|---|---|---|---|
| 仅 NLR | 基线 | 低 | 单范式 |
| NLR + AR | 中等 | 中等 | 两范式 |
| NLR + AR + SR(完整 CoR) | 最高 | 最高 | 三范式协同 |
| 无 PPT(直接训练三范式) | 下降 | 下降 | 验证渐进训练必要性 |
关键发现¶
- 零样本超越 few-shot SOTA:CoR-Math-7B 零样本在 miniF2F 上比所有 few-shot 基线更好,说明多范式协同带来了真正的泛化能力
- 定理证明突破性提升:7B 模型在 miniF2F 上超 GPT-4o 41 个百分点,这在以前被认为是不可能的
- 范式间协同效应:NLR 的语义描述帮助 SR 的形式化,AR 的精确计算验证 NLR 的推理,三者互相增强
- 资源效率更高:SMPS 通过范式级采样,用更少的总尝试次数探索更多样的解空间,比 tree search 更高效
- PPT 渐进训练关键:直接训练三范式效果差,说明从易到难的渐进引入帮助模型更好地学习跨范式协作
亮点与洞察¶
- 范式级推理链是重要创新:不是简单"用代码辅助 NLR"(如 TIR),而是让三种范式各自完成独立推理并互相参考。SR 范式使得 7B 模型也能做形式化定理证明
- 渐进范式训练策略优雅:从熟悉到陌生的范式引入顺序符合学习规律,且每阶段的数据集独立设计,教学效果好
- SMPS 范式级采样新颖:在范式维度而非 token 维度进行多样性探索,这个思路可迁移到任何多策略推理系统
局限性 / 可改进方向¶
- 依赖 Lean prover 验证:SR 部分需要 Lean 4 环境,增加了训练流程复杂度
- 数据构建成本高:MPM 数据集需要 GPT-4o 合成 + Lean 验证 + 人工审核,规模化困难
- 仅验证了数学领域:CoR 框架是否适用于其他需要多种推理方式的任务(如科学推理、法律推理)有待探索
- 推理开销大:三范式顺序推理 + SMPS 采样意味着推理成本是单范式的数倍
相关工作与启发¶
- vs ToRA/Numina-TIR:这些方法在 NLR 中嵌入代码调用作为工具辅助,本质仍是单范式。CoR 让每种范式独立推理并互相增强
- vs DeepSeek-Prover:专注于 SR 的定理证明专家,用大规模 tree search。CoR 用更少采样预算达到更好效果,因为NLR提供的语义先验帮助了SR搜索
- vs Qwen2.5-Math:算术计算的 SOTA 专家,但不能做定理证明。CoR-Math-7B 是真正的"数学通才"
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 多范式统一推理框架是数学推理领域的重要突破,PPT 和 SMPS 设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ 5个基准、与大量基线(含GPT-4o/o1-mini)的全面对比,消融详尽
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,图表信息密度高,但符号较多需要仔细阅读
- 价值: ⭐⭐⭐⭐⭐ 统一数学推理框架+开源模型+微软出品,对领域影响大