ScaleQuest: Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch¶
会议: ACL 2025
arXiv: 2410.18693
代码: https://scalequest.github.io
领域: LLM推理 / 数据合成
关键词: math reasoning, question synthesis, QFT, QPO, data scaling, instruction tuning
一句话总结¶
提出 ScaleQuest,通过 Question Fine-Tuning (QFT) + Question Preference Optimization (QPO) 两阶段训练将 7B 解题模型变为出题模型,从零合成 100 万高质量数学问题-解答对,在四个基准上全面超越所有开源数据集,且数据量扩展至 1M 时性能持续提升未见饱和。
研究背景与动机¶
- 高质量推理数据稀缺:提升 LLM 数学推理能力需要大规模、多样化的高质量数据集,但开源社区严重缺乏此类资源——领先模型(o1、Claude-3.5)的成功很大程度依赖未公开的高质量数据。
- 问题驱动方法多样性受限:MetaMath(改写)、WizardMath(evol-instruct)、Orca-Math(back-translation)等方法生成的问题与种子高度相似(仅改数字或加条件),多样性瓶颈限制了扩展性。
- 知识驱动方法成本高昂:NuminaMath(知识图谱引导)、KPMath(关键知识点采样)虽提升了多样性,但仍依赖 GPT-4 等强模型生成问题,API 成本使大规模合成不可行。
- 直接用解题模型生成题目效果差:Magpie 式方法直接用 instruct 模型生成指令,在推理任务上效果不佳(Figure 1 中 Llama3-8B-Magpie 远逊其他方法),因为指令微调的损失只在回答上计算,问题生成能力未被显式激活。
- 轻量低成本方案的需求:开源社区需要不依赖强闭源模型、用 7B 级轻量模型就能低成本合成大规模数据的方案。
- 数据扩展性的理论诉求:理想的数据合成方法应随数据量增加而持续提升性能,但现有方法(如 DART-Math 基于有限种子的拒绝采样)很快饱和。
方法详解¶
框架概览¶
ScaleQuest 包含三个核心阶段:(1) QFT 激活解题模型的出题能力;(2) QPO 通过偏好优化提升生成问题的可解性和难度;(3) 过滤+响应生成——多维过滤后用 Best-of-5 奖励模型选择最优解答。最终用两个 7B 模型各生成 100 万问题,过滤后得到 100 万问题-解答对。
关键设计¶
- QFT (Question Fine-Tuning) — 激活出题能力
- 做什么:用约 15K 数学问题(不含解答、仅问题文本 + EOS token)微调解题模型(Qwen2-Math-7B-Instruct),让模型学会"只生成问题后就停止"。
- 核心思路:因果语言模型在指令微调时以因果 mask 处理输入,隐状态按上文演化因此隐含了 \(P(x_i|x_{<i})\) 建模能力,QFT 只需激活这一能力而非记忆训练题。
-
设计动机:验证实验证明了"激活而非记忆"——分别用 GSM8K 和 MATH 训练的 QFT 模型生成的问题难度分布趋同(而非各自复刻训练集),说明 QFT 激活的是通用出题能力。
-
QPO (Question Preference Optimization) — 提升问题质量
- 做什么:QFT 模型生成 10K 问题,用外部 LLM 分别从可解性和难度两个方向优化问题,构造(优化后, 原始)偏好对,用 DPO 训练模型。
- 核心思路:借鉴 DPO 的偏好优化框架,将其从"优化回答"迁移到"优化问题"——损失函数 \(\mathcal{L}_{\text{QPO}}\) 鼓励模型生成更可解、更有难度的问题。
-
设计动机:QFT 后生成的问题虽有意义但质量不够——部分问题不可解(约束不足/答案错误)或过于简单。每条样本随机选一个优化方向(可解性 or 难度),避免同时优化两个目标的冲突。实验证明 GPT-4o-mini 在可解性优化上最有效。
-
多维过滤 + 奖励模型选解答
- 做什么:语言过滤(去除约 20% 非英文问题)→ 可解性过滤(Qwen2-Math 判断问题是否有意义、条件是否充分)→ 难度采样(基于 fail rate 训练的难度评分器过滤过简单问题)→ 每题生成 5 个解答、用 InternLM2-7B-Reward 选最高分解答。
- 核心思路:生成后过滤比生成时约束更灵活高效,难度评分器将"对问题采样 n 次的错误率"作为难度的操作化定义。
- 设计动机:三重过滤分别解决语言混杂、不可解问题、难度不均衡三个问题;奖励模型选解答确保了最终数据的回答质量。
实验¶
表1:主实验结果(四个数学推理基准,零样本 pass@1 准确率)¶
| 基底模型-数据集 | 合成模型 | GSM8K | MATH | College Math | OlympiadBench | 平均 |
|---|---|---|---|---|---|---|
| Mistral-7B-MetaMath | GPT-3.5 | 77.7 | 28.2 | 19.1 | 5.8 | 32.7 |
| Mistral-7B-NuminaMath | GPT-4o | 82.1 | 49.4 | 33.8 | 19.4 | 46.2 |
| Mistral-7B-ScaleQuest | Qwen2-7B | 88.5 | 62.9 | 43.5 | 26.8 | 55.4 |
| Llama3-8B-MetaMath | GPT-3.5 | 77.3 | 32.5 | 20.6 | 5.5 | 34.0 |
| Llama3-8B-NuminaMath | GPT-4o | 77.2 | 50.7 | 33.2 | 17.8 | 44.7 |
| Llama3-8B-ScaleQuest | Qwen2-7B | 87.9 | 64.4 | 42.8 | 25.3 | 55.1 |
| DSMath-7B-DART-Math | DSMath-RL | 86.8 | 53.6 | 40.7 | 21.7 | 50.7 |
| DSMath-7B-ScaleQuest | Qwen2-7B | 89.5 | 66.6 | 47.7 | 29.9 | 58.4 |
| Qwen2-Math-7B-NuminaMath | GPT-4o | 84.6 | 65.6 | 45.5 | 33.6 | 57.3 |
| Qwen2-Math-7B-ScaleQuest | Qwen2-7B | 89.7 | 73.4 | 50.0 | 38.5 | 62.9 |
表2:问题质量对比(统一用 Qwen2-Math-7B-Instruct 生成回答)¶
| 问题来源 | GSM8K | MATH | College Math | OlympiadBench | 平均 |
|---|---|---|---|---|---|
| MetaMath | 84.5 | 53.8 | 40.1 | 22.1 | 50.1 |
| OrcaMath | 84.2 | 53.7 | 40.5 | 23.7 | 50.5 |
| NuminaMath | 86.0 | 65.9 | 46.1 | 30.2 | 57.1 |
| ScaleQuest | 89.5 | 66.6 | 47.7 | 29.9 | 58.4 |
表3:成本分析¶
| 方法 | GPU 时间 | 美元成本 |
|---|---|---|
| ScaleQuest (1M 样本) | 522.9 GPU-hours | $680.8 |
| GPT-4o (同等 token 量) | - | $6,115.9 |
| GPT-4 (同等 token 量) | - | $24,939.5 |
关键发现¶
- 全面超越所有开源数据集:ScaleQuest 在四个基底模型上平均性能提升 5.6%~11.5%,Qwen2-Math-7B-ScaleQuest 在 MATH 上达到 73.4,匹配 GPT-4-Turbo。
- 超越教师模型:Qwen2-Math-7B-ScaleQuest 在 GSM8K (89.7)、MATH (73.4)、OlympiadBench (38.5) 上全面超越其教师模型 Qwen2-Math-7B-Instruct。
- 数据扩展不饱和:从 100K 到 1M,in-domain (MATH) 和 out-of-domain (OlympiadBench) 均持续提升且无收敛迹象,其他数据集(DART-Math 等)早已饱和。
- QFT+QPO 每一步都有效:消融研究显示 QFT 提升可解性和多样性,QPO 进一步提升难度和可解性,奖励过滤再提升最终效果。
- 多生成器增强多样性:混合 DSMath-QGen 和 Qwen2-Math-QGen 的数据优于单一生成器——前者偏实际问题、后者偏理论问题,互补提升多样性。
- 成本仅为 GPT-4o 的 11%:生成 1M 样本仅需 $680.8(8×A100 约 2.7 天),不到 GPT-4o 同等规模成本的 1/9。
亮点¶
- "从解题到出题"的范式转变:QFT+QPO 将解题模型变为出题模型,只需约 15K 种子问题(无解答),概念简洁且高效——开创了推理数据合成的新范式。
- QPO 的偏好优化设计精巧:将 DPO 从"优化回答质量"迁移到"优化问题质量",每条样本随机选一个优化方向避免多目标冲突。
- 数据扩展不饱和的重要发现:暗示可以继续扩展到更大规模,为"数据越多越好"在推理领域提供了实证支持。
- 从数学泛化到代码推理:方法在代码推理任务上也展示了显著提升,说明不限于数学领域。
局限性¶
- 仅验证了 7B 级模型,在更大模型(72B、70B)上的效果未知。
- QPO 阶段的外部 LLM 优化可能引入分布偏差。
- 难度采样的过滤阈值基于经验设定,缺乏理论指导。
- 生成回答的质量"仍未完全满意"——问题偏好对齐仍有改进空间。
- 人工评估显示合成数据在清晰度和合理性上仍逊于人写数据集(GSM8K、MATH)。
相关工作¶
- 问题驱动方法:WizardMath (evol-instruct)、MetaMath (改写)、MMIQC (混合)、Orca-Math (back-translation) 在多样性上受限于种子问题。
- 知识驱动方法:MathScale (知识图谱)、KPMath (关键知识点)、NuminaMath (真题+合成混合) 提升了多样性但依赖强模型。
- 回答质量增强:DART-Math (难度感知拒绝采样) 从回答端优化,与 ScaleQuest 从问题端优化互补——两者可组合使用。
- 数学推理能力提升的其他路线:预训练数据优化(Llemma)、工具集成推理(PAL、PoT)、偏好调优(DeepSeekMath-RL)。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ QFT+QPO 两阶段出题训练是数据合成的新范式,"从解题到出题"概念新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个基底模型 × 4 个基准 + 扩展性分析 + 消融 + 成本分析 + 人工评估 + 代码泛化
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法逻辑链完整,消融充分
- 价值: ⭐⭐⭐⭐⭐ 为开源社区提供了低成本、可扩展的推理数据合成方案,实际影响力大