跳转至

📚 AI Paper Notes

MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion

MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion¶

会议: ACL 2025
arXiv: 2503.16212
代码: https://github.com/QizhiPei/MathFusion
领域: LLM Reasoning
关键词: 数学推理, 指令融合, 数据增强, 跨问题合成, 关系结构

一句话总结¶

MathFusion 提出了跨问题指令融合的数学数据增强框架，通过顺序融合、并行融合和条件融合三种策略将两个数学问题合成新问题，仅用 45K 额外合成指令就在 6 个 benchmark 上平均提升 18 分准确率。

研究背景与动机¶

领域现状：数据增强是提升 LLM 数学推理的重要手段，现有方法主要在实例级别修改（改写、语法变换）
现有痛点：
实例级修改无法捕捉数学知识的内在关系结构——数学问题往往由相互依赖的子问题组成
MetaMath/WizardMath 等方法只增强单个问题的变体，不涉及问题间的关系
LLM 难以有效处理复杂的多步组合问题
核心矛盾：单问题增强无法让模型学会问题间的依赖和组合关系
本文要解决什么：通过跨问题融合让模型学习数学知识的关系结构
切入角度：类比人类学习——通过系统接触互联概念来发展数学能力
核心idea一句话：将两个相关数学问题融合成一个更复杂的新问题来训练模型

方法详解¶

整体框架¶

原始数学数据集 → 找到适合融合的问题对（类型和上下文相似）→ 应用三种融合策略生成新问题 \(P_F\) → 用强 LLM 生成解答 → 过滤 → MathFusionQA 数据集 → 微调 LLM。

关键设计¶

Sequential Fusion (顺序融合):
做什么：将两个问题通过共享变量链接，一个问题的输出是另一个的输入
示例：问题A求出某个值x，问题B用x作为已知条件继续求解
设计动机：训练模型解决多步依赖问题的能力
Parallel Fusion (并行融合):
做什么：将两个类似问题整合为一个同时考虑两者数学本质的新问题
示例：两个不同场景的比例问题融合成一个综合比例问题
设计动机：强化概念理解——从多个角度看同一数学概念
Conditional Fusion (条件融合):
做什么：基于特定上下文创建需要根据条件选择不同解法的问题
示例："如果...则用方法A解，否则用方法B解"
设计动机：增强推理灵活性——现实数学问题经常需要根据条件分情况讨论

损失函数 / 训练策略¶

标准 SFT 微调。在 DeepSeekMath-7B、Mistral-7B、Llama3-8B 上验证。

实验关键数据¶

主实验¶

方法	额外数据量	6个benchmark平均提升
MetaMath	~395K	基线对比
DART-Math	~590K	较强基线
MathFusion	45K	+18.0分
MathFusion + DART-Math	<200K	超越 DART-Math

关键发现¶

仅 45K 合成指令就超越使用数十万数据的传统方法——极高的数据效率
与 DART-Math 互补：结合后进一步提升，且使用不到 DART-Math 三分之一的数据
在 OOD benchmark 上也有显著提升，说明模型学到了可迁移的推理能力
三种融合策略各有贡献，组合使用效果最好

亮点与洞察¶

"跨问题融合"比"单问题增强"更有效率——45K vs 数十万条数据
三种融合策略对应三种数学推理模式（链式/并行/条件），覆盖思路全面
模型学到的是关系结构而非表面模式，因此 OOD 泛化好
可以与现有数据增强方法（DART-Math 等）互补使用

局限性 / 可改进方向¶

融合质量依赖于问题对的选择——如何更好地匹配适合融合的问题对
目前融合策略是预定义的，更灵活的自动融合策略可能更好
仅在 7-8B 模型上验证，更大模型可能边际收益不同

相关工作与启发¶

vs MetaMath: MetaMath 做单问题改写（backward/forward），MathFusion 做跨问题融合
vs DART-Math: DART-Math 用难度变换增强，MathFusion 用关系融合，两者互补
vs WizardMath: WizardMath 用进化式 prompt 增强单问题，MathFusion 从问题组合出发

评分¶

新颖性: ⭐⭐⭐⭐ 跨问题融合的idea在数学数据增强中是新颖的
实验充分度: ⭐⭐⭐⭐ 3个模型+6个benchmark+消融+与SOTA互补实验
写作质量: ⭐⭐⭐⭐ 融合示例直观，方法图清晰
价值: ⭐⭐⭐⭐ 数据效率极高的数学增强方法，实用价值大