跳转至

ScaleQuest: Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch

会议: ACL 2025
arXiv: 2410.18693
代码: https://scalequest.github.io
领域: LLM推理 / 数据合成
关键词: math reasoning, question synthesis, QFT, QPO, data scaling, instruction tuning

一句话总结

提出 ScaleQuest,通过 Question Fine-Tuning (QFT) + Question Preference Optimization (QPO) 两阶段训练将 7B 解题模型变为出题模型,从零合成 100 万高质量数学问题-解答对,在四个基准上全面超越所有开源数据集,且数据量扩展至 1M 时性能持续提升未见饱和。

研究背景与动机

  1. 高质量推理数据稀缺:提升 LLM 数学推理能力需要大规模、多样化的高质量数据集,但开源社区严重缺乏此类资源——领先模型(o1、Claude-3.5)的成功很大程度依赖未公开的高质量数据。
  2. 问题驱动方法多样性受限:MetaMath(改写)、WizardMath(evol-instruct)、Orca-Math(back-translation)等方法生成的问题与种子高度相似(仅改数字或加条件),多样性瓶颈限制了扩展性。
  3. 知识驱动方法成本高昂:NuminaMath(知识图谱引导)、KPMath(关键知识点采样)虽提升了多样性,但仍依赖 GPT-4 等强模型生成问题,API 成本使大规模合成不可行。
  4. 直接用解题模型生成题目效果差:Magpie 式方法直接用 instruct 模型生成指令,在推理任务上效果不佳(Figure 1 中 Llama3-8B-Magpie 远逊其他方法),因为指令微调的损失只在回答上计算,问题生成能力未被显式激活。
  5. 轻量低成本方案的需求:开源社区需要不依赖强闭源模型、用 7B 级轻量模型就能低成本合成大规模数据的方案。
  6. 数据扩展性的理论诉求:理想的数据合成方法应随数据量增加而持续提升性能,但现有方法(如 DART-Math 基于有限种子的拒绝采样)很快饱和。

方法详解

框架概览

ScaleQuest 包含三个核心阶段:(1) QFT 激活解题模型的出题能力;(2) QPO 通过偏好优化提升生成问题的可解性和难度;(3) 过滤+响应生成——多维过滤后用 Best-of-5 奖励模型选择最优解答。最终用两个 7B 模型各生成 100 万问题,过滤后得到 100 万问题-解答对。

关键设计

  1. QFT (Question Fine-Tuning) — 激活出题能力
  2. 做什么:用约 15K 数学问题(不含解答、仅问题文本 + EOS token)微调解题模型(Qwen2-Math-7B-Instruct),让模型学会"只生成问题后就停止"。
  3. 核心思路:因果语言模型在指令微调时以因果 mask 处理输入,隐状态按上文演化因此隐含了 \(P(x_i|x_{<i})\) 建模能力,QFT 只需激活这一能力而非记忆训练题。
  4. 设计动机:验证实验证明了"激活而非记忆"——分别用 GSM8K 和 MATH 训练的 QFT 模型生成的问题难度分布趋同(而非各自复刻训练集),说明 QFT 激活的是通用出题能力。

  5. QPO (Question Preference Optimization) — 提升问题质量

  6. 做什么:QFT 模型生成 10K 问题,用外部 LLM 分别从可解性和难度两个方向优化问题,构造(优化后, 原始)偏好对,用 DPO 训练模型。
  7. 核心思路:借鉴 DPO 的偏好优化框架,将其从"优化回答"迁移到"优化问题"——损失函数 \(\mathcal{L}_{\text{QPO}}\) 鼓励模型生成更可解、更有难度的问题。
  8. 设计动机:QFT 后生成的问题虽有意义但质量不够——部分问题不可解(约束不足/答案错误)或过于简单。每条样本随机选一个优化方向(可解性 or 难度),避免同时优化两个目标的冲突。实验证明 GPT-4o-mini 在可解性优化上最有效。

  9. 多维过滤 + 奖励模型选解答

  10. 做什么:语言过滤(去除约 20% 非英文问题)→ 可解性过滤(Qwen2-Math 判断问题是否有意义、条件是否充分)→ 难度采样(基于 fail rate 训练的难度评分器过滤过简单问题)→ 每题生成 5 个解答、用 InternLM2-7B-Reward 选最高分解答。
  11. 核心思路:生成后过滤比生成时约束更灵活高效,难度评分器将"对问题采样 n 次的错误率"作为难度的操作化定义。
  12. 设计动机:三重过滤分别解决语言混杂、不可解问题、难度不均衡三个问题;奖励模型选解答确保了最终数据的回答质量。

实验

表1:主实验结果(四个数学推理基准,零样本 pass@1 准确率)

基底模型-数据集 合成模型 GSM8K MATH College Math OlympiadBench 平均
Mistral-7B-MetaMath GPT-3.5 77.7 28.2 19.1 5.8 32.7
Mistral-7B-NuminaMath GPT-4o 82.1 49.4 33.8 19.4 46.2
Mistral-7B-ScaleQuest Qwen2-7B 88.5 62.9 43.5 26.8 55.4
Llama3-8B-MetaMath GPT-3.5 77.3 32.5 20.6 5.5 34.0
Llama3-8B-NuminaMath GPT-4o 77.2 50.7 33.2 17.8 44.7
Llama3-8B-ScaleQuest Qwen2-7B 87.9 64.4 42.8 25.3 55.1
DSMath-7B-DART-Math DSMath-RL 86.8 53.6 40.7 21.7 50.7
DSMath-7B-ScaleQuest Qwen2-7B 89.5 66.6 47.7 29.9 58.4
Qwen2-Math-7B-NuminaMath GPT-4o 84.6 65.6 45.5 33.6 57.3
Qwen2-Math-7B-ScaleQuest Qwen2-7B 89.7 73.4 50.0 38.5 62.9

表2:问题质量对比(统一用 Qwen2-Math-7B-Instruct 生成回答)

问题来源 GSM8K MATH College Math OlympiadBench 平均
MetaMath 84.5 53.8 40.1 22.1 50.1
OrcaMath 84.2 53.7 40.5 23.7 50.5
NuminaMath 86.0 65.9 46.1 30.2 57.1
ScaleQuest 89.5 66.6 47.7 29.9 58.4

表3:成本分析

方法 GPU 时间 美元成本
ScaleQuest (1M 样本) 522.9 GPU-hours $680.8
GPT-4o (同等 token 量) - $6,115.9
GPT-4 (同等 token 量) - $24,939.5

关键发现

  • 全面超越所有开源数据集:ScaleQuest 在四个基底模型上平均性能提升 5.6%~11.5%,Qwen2-Math-7B-ScaleQuest 在 MATH 上达到 73.4,匹配 GPT-4-Turbo。
  • 超越教师模型:Qwen2-Math-7B-ScaleQuest 在 GSM8K (89.7)、MATH (73.4)、OlympiadBench (38.5) 上全面超越其教师模型 Qwen2-Math-7B-Instruct。
  • 数据扩展不饱和:从 100K 到 1M,in-domain (MATH) 和 out-of-domain (OlympiadBench) 均持续提升且无收敛迹象,其他数据集(DART-Math 等)早已饱和。
  • QFT+QPO 每一步都有效:消融研究显示 QFT 提升可解性和多样性,QPO 进一步提升难度和可解性,奖励过滤再提升最终效果。
  • 多生成器增强多样性:混合 DSMath-QGen 和 Qwen2-Math-QGen 的数据优于单一生成器——前者偏实际问题、后者偏理论问题,互补提升多样性。
  • 成本仅为 GPT-4o 的 11%:生成 1M 样本仅需 $680.8(8×A100 约 2.7 天),不到 GPT-4o 同等规模成本的 1/9。

亮点

  • "从解题到出题"的范式转变:QFT+QPO 将解题模型变为出题模型,只需约 15K 种子问题(无解答),概念简洁且高效——开创了推理数据合成的新范式。
  • QPO 的偏好优化设计精巧:将 DPO 从"优化回答质量"迁移到"优化问题质量",每条样本随机选一个优化方向避免多目标冲突。
  • 数据扩展不饱和的重要发现:暗示可以继续扩展到更大规模,为"数据越多越好"在推理领域提供了实证支持。
  • 从数学泛化到代码推理:方法在代码推理任务上也展示了显著提升,说明不限于数学领域。

局限性

  • 仅验证了 7B 级模型,在更大模型(72B、70B)上的效果未知。
  • QPO 阶段的外部 LLM 优化可能引入分布偏差。
  • 难度采样的过滤阈值基于经验设定,缺乏理论指导。
  • 生成回答的质量"仍未完全满意"——问题偏好对齐仍有改进空间。
  • 人工评估显示合成数据在清晰度和合理性上仍逊于人写数据集(GSM8K、MATH)。

相关工作

  • 问题驱动方法:WizardMath (evol-instruct)、MetaMath (改写)、MMIQC (混合)、Orca-Math (back-translation) 在多样性上受限于种子问题。
  • 知识驱动方法:MathScale (知识图谱)、KPMath (关键知识点)、NuminaMath (真题+合成混合) 提升了多样性但依赖强模型。
  • 回答质量增强:DART-Math (难度感知拒绝采样) 从回答端优化,与 ScaleQuest 从问题端优化互补——两者可组合使用。
  • 数学推理能力提升的其他路线:预训练数据优化(Llemma)、工具集成推理(PAL、PoT)、偏好调优(DeepSeekMath-RL)。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ QFT+QPO 两阶段出题训练是数据合成的新范式,"从解题到出题"概念新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个基底模型 × 4 个基准 + 扩展性分析 + 消融 + 成本分析 + 人工评估 + 代码泛化
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法逻辑链完整,消融充分
  • 价值: ⭐⭐⭐⭐⭐ 为开源社区提供了低成本、可扩展的推理数据合成方案,实际影响力大