Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models¶
会议: ACL 2025
arXiv: 2501.11110
代码: https://github.com/microsoft/CoR (有)
领域: LLM推理 / 数学推理
关键词: 数学推理, 多范式推理, 自然语言推理, 符号推理, 定理证明
一句话总结¶
提出Chain-of-Reasoning(CoR)统一框架,将自然语言推理(NLR)、算法推理(AR)和符号推理(SR)三种范式整合在同一推理链中协同工作,配合渐进式范式训练(PPT)策略,使7B模型在定理证明上零样本超越GPT-4o 41%,在MATH上超越RL方法15%。
研究背景与动机¶
现有数学推理方法大多依赖单一推理范式,导致"偏科"问题严重: - NLR模型(如CoT推理)擅长算术计算但在形式化定理证明上表现差 - AR模型(如代码生成执行)擅长精确计算但缺乏高层次推理能力 - SR模型(如Lean证明搜索)擅长形式化证明但无法处理一般算术题
现有尝试要么通过工具整合(如NLR+代码执行器)来补强单范式,但本质仍依赖一种主范式;要么通过混合数据训练提升跨任务能力,但仍然每个任务只用一种范式解题。核心矛盾在于:这些方法忽视了第二种范式可以独立完成推理的可能性,只把它当辅助工具而非独立的推理路径。
CoR的核心idea:不同推理范式不应互相替代,而应链式协作——先用NLR分析问题建立直觉,再用SR形式化验证逻辑正确性,最后用AR精确计算得到答案,每种范式都产生完整的推理路径并相互参考。
方法详解¶
整体框架¶
给定数学问题 \(x\),CoR使模型依次经过三种推理范式 \(\Gamma = (\tau_1, \tau_2, \tau_3)\),每种范式产生独立的推理路径。范式之间是条件依赖关系:\(\tau_i \sim \mathbb{P}(\tau_i | x, \tau_1, ..., \tau_{i-1})\),最终综合所有范式的结果给出答案 \(y \sim \mathbb{P}(y | x, \tau_{NLR}, \tau_{SR}, \tau_{AR})\)。
训练pipeline:(1) 构建MPM多范式数学数据集 → (2) PPT渐进范式训练 → (3) SMPS多范式采样推理。
关键设计¶
-
多范式数学数据集(MPM)构建:
- 功能:将单范式数据集扩展为包含NLR、AR、SR三种推理路径的多范式数据
- 核心思路:
- Stage 1(重构+扩展):以Numina-TIR和Lean-Workbook为种子数据,利用GPT-4o生成缺失的推理范式 \(\tau_g \sim \mathbb{P}_\mathcal{G}(\tau_g | p_s \oplus x \oplus y \oplus \tau')\),并设计统一文本模板规范各范式的位置和关系
- Stage 2(修正):将SR部分提交给Lean证明器验证,失败的样本通过DeepSeek-Prover-V1.5迭代修正(最多64轮),最终得到82,770道题目、167,412条多范式推理路径
- 设计动机:现有数据集要么只有NLR要么只有SR,没有同一问题的多范式完整推理路径
-
渐进范式训练(PPT):
- 功能:让模型分阶段逐步掌握多种推理范式
- 核心思路:
- Stage ①:仅NLR数据训练(Numina-CoT*),生成序列 \(z = [x]\tau_{NLR}y\),激活模型的数学理解能力
- Stage ②:NLR+AR数据训练(Numina-TIR*),生成序列 \(z = [x]\tau_{NLR}\tau_{AR}y\),激活计算技能
- Stage ③:NLR+AR+SR数据训练(MPM),生成序列 \(z = [x]\tau_{NLR}\tau_{AR}\tau_{SR}y\),学习形式化推理
- 损失函数为标准语言建模损失:\(\mathcal{L} = -\sum_{t=1}^{|z|} \log \mathbb{P}_\theta(z_t | z_{<t})\)
- 设计动机:从最熟悉的NLR到最不熟悉的SR渐进过渡,类似于从常识到形式化的认知递进,而非一次性混合训练
-
顺序多范式采样(SMPS):
- 功能:推理时通过跨范式的层次化采样探索更大的解空间
- 核心思路:先为第一个范式采样 \(J\) 条路径,再为每条路径的第二个范式采样 \(K\) 条路径,总共得到 \(J \times K\) 个候选答案,公式为 \(y_{jk} \sim \mathbb{P}(y_{jk} | x, \tau_{1j}, \tau_{2k})\)
- 设计动机:相比单范式内的token级树搜索,跨范式采样能以更低成本探索更多样的解空间
损失函数 / 训练策略¶
标准自回归语言模型损失,三阶段顺序训练。基座模型为DeepSeekMath-7B-Base,也在Llama-3.1-8B上做了验证。推理时范式顺序可通过prompt灵活控制,支持NLR→SR→AR(最优)和NLR→AR→SR两种顺序。
实验关键数据¶
主实验(零样本)¶
| 数据集 | 指标 | CoR-Math-7B | InternLM2-Math-Plus-7B | GPT-4o | 提升 |
|---|---|---|---|---|---|
| MATH | Pass@1 | 66.7 | 53.0 | 76.6 | +13.7 vs InternLM |
| GSM8K | Pass@1 | 88.7 | 85.8 | 90.5 | +2.9 vs InternLM |
| AMC2023 | Maj@64 | 34/40 | 15/40 | 24/40 | +19题 vs InternLM |
| AIME2024 | Maj@64 | 12/30 | 1/30 | 3/30 | +11题 vs InternLM |
| miniF2F | Pass@128² | 66.0 | - | 25.0 | +41.0 vs GPT-4o |
消融实验¶
| 配置 | MATH | GSM8K | miniF2F | 说明 |
|---|---|---|---|---|
| DSM+NLR | 27.8 | 33.9 | - | 仅自然语言推理 |
| DSM+AR | 37.6 | 75.8 | - | 仅算法推理 |
| DSM+SR | - | - | 44.3 | 仅符号推理 |
| DSM+CoR | 66.7 | 88.7 | 52.9 | 多范式协同 |
| NLR→AR→SR | 49.9 | 84.2 | - | AR在SR前 |
| NLR→SR→AR | 66.7 | 88.7 | - | SR在AR前(最优) |
关键发现¶
- 多范式协同远优于单范式:CoR在MATH上比最优单范式(AR)高出29.1%,证明范式间存在强协同效应
- 范式顺序很重要:NLR→SR→AR(先形式化再计算)比NLR→AR→SR高出16.8%(MATH),因为SR的形式化分解为后续AR提供了结构化基础
- PPT三阶段各有贡献:Stage ①(NLR)贡献最大(Llama从4.2提升到52.1),Stage ③(加入SR)仍带来显著增益,说明新范式能真正增强推理能力
- 模型规模正相关:Qwen2.5-Math-7B在CoR上比1.5B版高7.1%(MATH),Llama-70B比8B高12.5%
亮点与洞察¶
- "推理范式是可组合的"这一核心洞察极具价值:不同于工具增强推理(NLR+代码执行器)中范式的主从关系,CoR让每种范式都产生独立完整的推理路径,这是一种更根本的多模态推理思路
- SMPS采样策略:\(J \times K\) 跨范式组合采样比单范式内 \(N\) 次采样更高效地覆盖解空间,相当于在"方法多样性"而非"路径多样性"维度上做搜索
- PPT的课程学习思路:从NLR→NLR+AR→NLR+AR+SR的渐进训练,避免了直接混合训练的不稳定性,可迁移到其他需要整合多种技能的场景
- 零样本超越few-shot模型:CoR-Math-7B的零样本miniF2F 66.0%超过了所有few-shot专家模型,说明多范式内化比范式外示例更有效
局限与展望¶
- 评估以零样本指标为主,与大多数采用few-shot设置的方法对齐困难
- SMPS组合采样在大规模使用时开销较大(\(128 \times 128\)=16384次推理),缺少自适应退出机制
- 目前仅覆盖NLR、AR、SR三种范式,是否可以引入更多范式(如视觉推理、物理推理)值得探索
- 基座模型为7B规模,在更大模型(如70B)上的收益尚待充分验证
相关工作与启发¶
- vs NuminaMath-TIR: NuminaMath采用工具集成单范式(NLR+代码片段),CoR将AR提升为完整的独立推理路径,MATH上高出11.4%
- vs DeepSeek-Prover-V1.5: DeepSeek专注单一SR范式的大规模搜索(32×6400),CoR用更少搜索量(128×128)通过多范式协同实现更高性能
- vs Qwen2.5-Math: Qwen2.5-Math-7B-Instruct在MATH上83.6%高于CoR的66.7%,但Qwen是用大规模RL训练的纯算术专家,不具备定理证明能力
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 多范式链式推理是一个全新视角,从根本上改变了数学推理的范式
- 实验充分度: ⭐⭐⭐⭐⭐ 五个benchmark覆盖算术和定理证明,消融实验非常系统
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,但符号较多需要仔细理解
- 价值: ⭐⭐⭐⭐⭐ 开辟了多范式协同推理的新方向,对数学AI发展有重要推动
相关论文¶
- [ACL 2025] Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective
- [ACL 2025] Safe: Enhancing Mathematical Reasoning in Large Language Models via Retrospective Step-aware Formal Verification
- [ACL 2025] ClozeMath: Improving Mathematical Reasoning in Language Models by Learning to Fill Equations
- [ACL 2025] Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?
- [ACL 2025] ProcessBench: Identifying Process Errors in Mathematical Reasoning