Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models¶

会议: ACL 2025
arXiv: 2501.11110
代码: https://github.com/microsoft/CoR (有)
领域: LLM推理 / 数学推理
关键词: 数学推理, 多范式推理, 自然语言推理, 符号推理, 定理证明

一句话总结¶

提出Chain-of-Reasoning（CoR）统一框架，将自然语言推理(NLR)、算法推理(AR)和符号推理(SR)三种范式整合在同一推理链中协同工作，配合渐进式范式训练(PPT)策略，使7B模型在定理证明上零样本超越GPT-4o 41%，在MATH上超越RL方法15%。

研究背景与动机¶

现有数学推理方法大多依赖单一推理范式，导致"偏科"问题严重： - NLR模型（如CoT推理）擅长算术计算但在形式化定理证明上表现差 - AR模型（如代码生成执行）擅长精确计算但缺乏高层次推理能力 - SR模型（如Lean证明搜索）擅长形式化证明但无法处理一般算术题

现有尝试要么通过工具整合（如NLR+代码执行器）来补强单范式，但本质仍依赖一种主范式；要么通过混合数据训练提升跨任务能力，但仍然每个任务只用一种范式解题。核心矛盾在于：这些方法忽视了第二种范式可以独立完成推理的可能性，只把它当辅助工具而非独立的推理路径。

CoR的核心idea：不同推理范式不应互相替代，而应链式协作——先用NLR分析问题建立直觉，再用SR形式化验证逻辑正确性，最后用AR精确计算得到答案，每种范式都产生完整的推理路径并相互参考。

方法详解¶

整体框架¶

给定数学问题 \(x\)，CoR使模型依次经过三种推理范式 \(\Gamma = (\tau_1, \tau_2, \tau_3)\)，每种范式产生独立的推理路径。范式之间是条件依赖关系：\(\tau_i \sim \mathbb{P}(\tau_i | x, \tau_1, ..., \tau_{i-1})\)，最终综合所有范式的结果给出答案 \(y \sim \mathbb{P}(y | x, \tau_{NLR}, \tau_{SR}, \tau_{AR})\)。

训练pipeline：(1) 构建MPM多范式数学数据集 → (2) PPT渐进范式训练 → (3) SMPS多范式采样推理。

关键设计¶

多范式数学数据集（MPM）构建:
- 功能：将单范式数据集扩展为包含NLR、AR、SR三种推理路径的多范式数据
- 核心思路：
  - Stage 1（重构+扩展）：以Numina-TIR和Lean-Workbook为种子数据，利用GPT-4o生成缺失的推理范式 \(\tau_g \sim \mathbb{P}_\mathcal{G}(\tau_g | p_s \oplus x \oplus y \oplus \tau')\)，并设计统一文本模板规范各范式的位置和关系
  - Stage 2（修正）：将SR部分提交给Lean证明器验证，失败的样本通过DeepSeek-Prover-V1.5迭代修正（最多64轮），最终得到82,770道题目、167,412条多范式推理路径
- 设计动机：现有数据集要么只有NLR要么只有SR，没有同一问题的多范式完整推理路径
渐进范式训练（PPT）:
- 功能：让模型分阶段逐步掌握多种推理范式
- 核心思路：
  - Stage ①：仅NLR数据训练（Numina-CoT*），生成序列 \(z = [x]\tau_{NLR}y\)，激活模型的数学理解能力
  - Stage ②：NLR+AR数据训练（Numina-TIR*），生成序列 \(z = [x]\tau_{NLR}\tau_{AR}y\)，激活计算技能
  - Stage ③：NLR+AR+SR数据训练（MPM），生成序列 \(z = [x]\tau_{NLR}\tau_{AR}\tau_{SR}y\)，学习形式化推理
  - 损失函数为标准语言建模损失：\(\mathcal{L} = -\sum_{t=1}^{|z|} \log \mathbb{P}_\theta(z_t | z_{<t})\)
- 设计动机：从最熟悉的NLR到最不熟悉的SR渐进过渡，类似于从常识到形式化的认知递进，而非一次性混合训练
顺序多范式采样（SMPS）:
- 功能：推理时通过跨范式的层次化采样探索更大的解空间
- 核心思路：先为第一个范式采样 \(J\) 条路径，再为每条路径的第二个范式采样 \(K\) 条路径，总共得到 \(J \times K\) 个候选答案，公式为 \(y_{jk} \sim \mathbb{P}(y_{jk} | x, \tau_{1j}, \tau_{2k})\)
- 设计动机：相比单范式内的token级树搜索，跨范式采样能以更低成本探索更多样的解空间

损失函数 / 训练策略¶

标准自回归语言模型损失，三阶段顺序训练。基座模型为DeepSeekMath-7B-Base，也在Llama-3.1-8B上做了验证。推理时范式顺序可通过prompt灵活控制，支持NLR→SR→AR（最优）和NLR→AR→SR两种顺序。

实验关键数据¶

主实验（零样本）¶

数据集	指标	CoR-Math-7B	InternLM2-Math-Plus-7B	GPT-4o	提升
MATH	Pass@1	66.7	53.0	76.6	+13.7 vs InternLM
GSM8K	Pass@1	88.7	85.8	90.5	+2.9 vs InternLM
AMC2023	Maj@64	34/40	15/40	24/40	+19题 vs InternLM
AIME2024	Maj@64	12/30	1/30	3/30	+11题 vs InternLM
miniF2F	Pass@128²	66.0	-	25.0	+41.0 vs GPT-4o

消融实验¶

配置	MATH	GSM8K	miniF2F	说明
DSM+NLR	27.8	33.9	-	仅自然语言推理
DSM+AR	37.6	75.8	-	仅算法推理
DSM+SR	-	-	44.3	仅符号推理
DSM+CoR	66.7	88.7	52.9	多范式协同
NLR→AR→SR	49.9	84.2	-	AR在SR前
NLR→SR→AR	66.7	88.7	-	SR在AR前（最优）

关键发现¶

多范式协同远优于单范式：CoR在MATH上比最优单范式（AR）高出29.1%，证明范式间存在强协同效应
范式顺序很重要：NLR→SR→AR（先形式化再计算）比NLR→AR→SR高出16.8%（MATH），因为SR的形式化分解为后续AR提供了结构化基础
PPT三阶段各有贡献：Stage ①（NLR）贡献最大（Llama从4.2提升到52.1），Stage ③（加入SR）仍带来显著增益，说明新范式能真正增强推理能力
模型规模正相关：Qwen2.5-Math-7B在CoR上比1.5B版高7.1%（MATH），Llama-70B比8B高12.5%

亮点与洞察¶

"推理范式是可组合的"这一核心洞察极具价值：不同于工具增强推理（NLR+代码执行器）中范式的主从关系，CoR让每种范式都产生独立完整的推理路径，这是一种更根本的多模态推理思路
SMPS采样策略：\(J \times K\) 跨范式组合采样比单范式内 \(N\) 次采样更高效地覆盖解空间，相当于在"方法多样性"而非"路径多样性"维度上做搜索
PPT的课程学习思路：从NLR→NLR+AR→NLR+AR+SR的渐进训练，避免了直接混合训练的不稳定性，可迁移到其他需要整合多种技能的场景
零样本超越few-shot模型：CoR-Math-7B的零样本miniF2F 66.0%超过了所有few-shot专家模型，说明多范式内化比范式外示例更有效

局限与展望¶

评估以零样本指标为主，与大多数采用few-shot设置的方法对齐困难
SMPS组合采样在大规模使用时开销较大（\(128 \times 128\)=16384次推理），缺少自适应退出机制
目前仅覆盖NLR、AR、SR三种范式，是否可以引入更多范式（如视觉推理、物理推理）值得探索
基座模型为7B规模，在更大模型（如70B）上的收益尚待充分验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 多范式链式推理是一个全新视角，从根本上改变了数学推理的范式
实验充分度: ⭐⭐⭐⭐⭐ 五个benchmark覆盖算术和定理证明，消融实验非常系统
写作质量: ⭐⭐⭐⭐ 框架描述清晰，但符号较多需要仔细理解
价值: ⭐⭐⭐⭐⭐ 开辟了多范式协同推理的新方向，对数学AI发展有重要推动