跳转至

MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion

会议: ACL 2025
arXiv: 2503.16212
代码: https://github.com/QizhiPei/MathFusion
领域: LLM Reasoning
关键词: 数学推理, 指令融合, 数据增强, 跨问题合成, 关系结构

一句话总结

MathFusion 提出了跨问题指令融合的数学数据增强框架,通过顺序融合、并行融合和条件融合三种策略将两个数学问题合成新问题,仅用 45K 额外合成指令就在 6 个 benchmark 上平均提升 18 分准确率。

研究背景与动机

  1. 领域现状:数据增强是提升 LLM 数学推理的重要手段,现有方法主要在实例级别修改(改写、语法变换)
  2. 现有痛点
  3. 实例级修改无法捕捉数学知识的内在关系结构——数学问题往往由相互依赖的子问题组成
  4. MetaMath/WizardMath 等方法只增强单个问题的变体,不涉及问题间的关系
  5. LLM 难以有效处理复杂的多步组合问题
  6. 核心矛盾:单问题增强无法让模型学会问题间的依赖和组合关系
  7. 本文要解决什么:通过跨问题融合让模型学习数学知识的关系结构
  8. 切入角度:类比人类学习——通过系统接触互联概念来发展数学能力
  9. 核心idea一句话:将两个相关数学问题融合成一个更复杂的新问题来训练模型

方法详解

整体框架

原始数学数据集 → 找到适合融合的问题对(类型和上下文相似)→ 应用三种融合策略生成新问题 \(P_F\) → 用强 LLM 生成解答 → 过滤 → MathFusionQA 数据集 → 微调 LLM。

关键设计

  1. Sequential Fusion (顺序融合):
  2. 做什么:将两个问题通过共享变量链接,一个问题的输出是另一个的输入
  3. 示例:问题A求出某个值x,问题B用x作为已知条件继续求解
  4. 设计动机:训练模型解决多步依赖问题的能力

  5. Parallel Fusion (并行融合):

  6. 做什么:将两个类似问题整合为一个同时考虑两者数学本质的新问题
  7. 示例:两个不同场景的比例问题融合成一个综合比例问题
  8. 设计动机:强化概念理解——从多个角度看同一数学概念

  9. Conditional Fusion (条件融合):

  10. 做什么:基于特定上下文创建需要根据条件选择不同解法的问题
  11. 示例:"如果...则用方法A解,否则用方法B解"
  12. 设计动机:增强推理灵活性——现实数学问题经常需要根据条件分情况讨论

损失函数 / 训练策略

标准 SFT 微调。在 DeepSeekMath-7B、Mistral-7B、Llama3-8B 上验证。

实验关键数据

主实验

方法 额外数据量 6个benchmark平均提升
MetaMath ~395K 基线对比
DART-Math ~590K 较强基线
MathFusion 45K +18.0分
MathFusion + DART-Math <200K 超越 DART-Math

关键发现

  • 仅 45K 合成指令就超越使用数十万数据的传统方法——极高的数据效率
  • 与 DART-Math 互补:结合后进一步提升,且使用不到 DART-Math 三分之一的数据
  • 在 OOD benchmark 上也有显著提升,说明模型学到了可迁移的推理能力
  • 三种融合策略各有贡献,组合使用效果最好

亮点与洞察

  • "跨问题融合"比"单问题增强"更有效率——45K vs 数十万条数据
  • 三种融合策略对应三种数学推理模式(链式/并行/条件),覆盖思路全面
  • 模型学到的是关系结构而非表面模式,因此 OOD 泛化好
  • 可以与现有数据增强方法(DART-Math 等)互补使用

局限性 / 可改进方向

  • 融合质量依赖于问题对的选择——如何更好地匹配适合融合的问题对
  • 目前融合策略是预定义的,更灵活的自动融合策略可能更好
  • 仅在 7-8B 模型上验证,更大模型可能边际收益不同

相关工作与启发

  • vs MetaMath: MetaMath 做单问题改写(backward/forward),MathFusion 做跨问题融合
  • vs DART-Math: DART-Math 用难度变换增强,MathFusion 用关系融合,两者互补
  • vs WizardMath: WizardMath 用进化式 prompt 增强单问题,MathFusion 从问题组合出发

评分

  • 新颖性: ⭐⭐⭐⭐ 跨问题融合的idea在数学数据增强中是新颖的
  • 实验充分度: ⭐⭐⭐⭐ 3个模型+6个benchmark+消融+与SOTA互补实验
  • 写作质量: ⭐⭐⭐⭐ 融合示例直观,方法图清晰
  • 价值: ⭐⭐⭐⭐ 数据效率极高的数学增强方法,实用价值大