MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion¶
会议: ACL 2025
arXiv: 2503.16212
代码: https://github.com/QizhiPei/MathFusion
领域: LLM Reasoning
关键词: 数学推理, 指令融合, 数据增强, 跨问题合成, 关系结构
一句话总结¶
MathFusion 提出了跨问题指令融合的数学数据增强框架,通过顺序融合、并行融合和条件融合三种策略将两个数学问题合成新问题,仅用 45K 额外合成指令就在 6 个 benchmark 上平均提升 18 分准确率。
研究背景与动机¶
- 领域现状:数据增强是提升 LLM 数学推理的重要手段,现有方法主要在实例级别修改(改写、语法变换)
- 现有痛点:
- 实例级修改无法捕捉数学知识的内在关系结构——数学问题往往由相互依赖的子问题组成
- MetaMath/WizardMath 等方法只增强单个问题的变体,不涉及问题间的关系
- LLM 难以有效处理复杂的多步组合问题
- 核心矛盾:单问题增强无法让模型学会问题间的依赖和组合关系
- 本文要解决什么:通过跨问题融合让模型学习数学知识的关系结构
- 切入角度:类比人类学习——通过系统接触互联概念来发展数学能力
- 核心idea一句话:将两个相关数学问题融合成一个更复杂的新问题来训练模型
方法详解¶
整体框架¶
原始数学数据集 → 找到适合融合的问题对(类型和上下文相似)→ 应用三种融合策略生成新问题 \(P_F\) → 用强 LLM 生成解答 → 过滤 → MathFusionQA 数据集 → 微调 LLM。
关键设计¶
- Sequential Fusion (顺序融合):
- 做什么:将两个问题通过共享变量链接,一个问题的输出是另一个的输入
- 示例:问题A求出某个值x,问题B用x作为已知条件继续求解
-
设计动机:训练模型解决多步依赖问题的能力
-
Parallel Fusion (并行融合):
- 做什么:将两个类似问题整合为一个同时考虑两者数学本质的新问题
- 示例:两个不同场景的比例问题融合成一个综合比例问题
-
设计动机:强化概念理解——从多个角度看同一数学概念
-
Conditional Fusion (条件融合):
- 做什么:基于特定上下文创建需要根据条件选择不同解法的问题
- 示例:"如果...则用方法A解,否则用方法B解"
- 设计动机:增强推理灵活性——现实数学问题经常需要根据条件分情况讨论
损失函数 / 训练策略¶
标准 SFT 微调。在 DeepSeekMath-7B、Mistral-7B、Llama3-8B 上验证。
实验关键数据¶
主实验¶
| 方法 | 额外数据量 | 6个benchmark平均提升 |
|---|---|---|
| MetaMath | ~395K | 基线对比 |
| DART-Math | ~590K | 较强基线 |
| MathFusion | 45K | +18.0分 |
| MathFusion + DART-Math | <200K | 超越 DART-Math |
关键发现¶
- 仅 45K 合成指令就超越使用数十万数据的传统方法——极高的数据效率
- 与 DART-Math 互补:结合后进一步提升,且使用不到 DART-Math 三分之一的数据
- 在 OOD benchmark 上也有显著提升,说明模型学到了可迁移的推理能力
- 三种融合策略各有贡献,组合使用效果最好
亮点与洞察¶
- "跨问题融合"比"单问题增强"更有效率——45K vs 数十万条数据
- 三种融合策略对应三种数学推理模式(链式/并行/条件),覆盖思路全面
- 模型学到的是关系结构而非表面模式,因此 OOD 泛化好
- 可以与现有数据增强方法(DART-Math 等)互补使用
局限性 / 可改进方向¶
- 融合质量依赖于问题对的选择——如何更好地匹配适合融合的问题对
- 目前融合策略是预定义的,更灵活的自动融合策略可能更好
- 仅在 7-8B 模型上验证,更大模型可能边际收益不同
相关工作与启发¶
- vs MetaMath: MetaMath 做单问题改写(backward/forward),MathFusion 做跨问题融合
- vs DART-Math: DART-Math 用难度变换增强,MathFusion 用关系融合,两者互补
- vs WizardMath: WizardMath 用进化式 prompt 增强单问题,MathFusion 从问题组合出发
评分¶
- 新颖性: ⭐⭐⭐⭐ 跨问题融合的idea在数学数据增强中是新颖的
- 实验充分度: ⭐⭐⭐⭐ 3个模型+6个benchmark+消融+与SOTA互补实验
- 写作质量: ⭐⭐⭐⭐ 融合示例直观,方法图清晰
- 价值: ⭐⭐⭐⭐ 数据效率极高的数学增强方法,实用价值大