跳转至

DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning

会议: ICLR 2026
arXiv: 2508.12726
代码: https://attention-is-all-i-need.github.io/Design-Logic-Reasoning
领域: LLM推理
关键词: data synthesis, design logic, multidisciplinary reasoning, question generation, SFT

一句话总结

提出 Design Logic(设计逻辑)——从真题中逆向工程出的可复用元知识,用于指导从原始文本合成多学科推理问题。构建了 470 万道覆盖 75 学科的推理题目,SFT 后的 base 模型甚至超越经过完整后训练的官方模型。

研究背景与动机

  1. 领域现状:LLM 在数学和编程上的推理能力提升显著(受益于竞赛平台丰富的开放题源),但在大学级别的跨学科推理上仍落后于人类专家。核心瓶颈是高质量多学科推理训练数据的严重匮乏。

  2. 现有痛点:(a) Query-centric 方法(如 Evol-Instruct)通过改写种子问题扩展数据,受限于种子覆盖面和模型偏差;(b) Document-centric 方法从文本生成问题,但难以控制难度和多样性,常退化为事实回忆;(c) 现有数据集学科分布严重偏斜(数学占绝大多数),跨学科覆盖不足。

  3. 核心矛盾:如何从原始文本(书籍、网页)大规模合成具有多步推理深度、可控难度、高多样性的考试级别问题?缺乏指导原则让 LLM 不知道如何将知识转化为复杂问题。

  4. 本文要解决什么? 提供一个系统化的多学科推理数据合成流水线——不仅合成问题,还合成"出题方法论"。

  5. 切入角度:人类教育专家出题时遵循结构化的设计过程(识别目标→构建情境→设计推理路径→制作干扰选项→验证)。如果能从真题中提取这种"出题逻辑"(Design Logic),就可以将其作为可复用模板应用到新的源文本上。

  6. 核心 idea 一句话:从真题中逆向工程出 12.5 万条 Design Logic(出题元知识),然后通过 retrieve-and-generate 将这些 logic 与原始文本匹配,指导 LLM 按相同推理模式从全新文本出题。

方法详解

整体框架

三阶段流水线:(1) 数据处理——对题库、书籍语料、网页语料进行多维标注和过滤;(2) Design Logic 提取——从 13.2 万道精选真题中逆向工程出 12.5 万条结构化出题逻辑;(3) 问题合成——两阶段 retrieve-and-generate 将 Design Logic 与源文本匹配后生成问题。

关键设计

  1. Design Logic 提取:
  2. 做什么:从真实考题中提取可复用的出题元知识
  3. 核心思路:用 DeepSeek-R1 分析每道真题,(i) 推断出题者的思维过程,(ii) 追溯从知识点到成题的构造过程,(iii) 抽象为结构化设计原则(Mermaid 格式)。再通过语义相似度去重(基于 Qwen3-Embedding 的图聚类,阈值 \(\tau=0.85\)),最终得到 125,328 条独特 Design Logic
  4. 设计动机:Design Logic 是与具体学科内容解耦的元知识——同一个出题逻辑可以用于不同学科的不同知识点,实现"出题能力的迁移"

  5. 高质量源文本库构建:

  6. 书籍语料:章节级处理,MinHash 去重,ModernBERT 分类器标注学科,BERT 评估可读性,fineweb-edu-classifier 评估教育价值。筛出 300 万高质量文本段
  7. 网页语料:从 FineFineWeb 6.5B 文本中用 Qwen3-30B 五级评分筛选(≥3),重新标注学科对齐 75 学科分类体系

  8. 两阶段 Retrieve-and-Generate 问题合成:

  9. 做什么:为每段源文本找到最匹配的 Design Logic 并生成问题
  10. Stage 1: 粗检索——计算源文本与 Design Logic 的向量余弦相似度,取 top-5 候选
  11. Stage 2: 精匹配+生成——DeepSeek-R1 从 top-5 中选出最适合的 logic,严格按其步骤从源文本生成研究生级别考试题目 + 参考答案
  12. 设计动机:避免穷举匹配的组合爆炸;先粗后精保证匹配质量

  13. Response 合成:

  14. 用 Qwen3-235B-A22B-Thinking 为每道题生成 long CoT 回答
  15. 问题-回答对用于 SFT 训练

损失函数 / 训练策略

  • SFT: 标准自回归损失,在 Qwen3-Base 和 Llama3-Base 上训练
  • 数据规模:DLR-Book 304 万 + DLR-Web 166 万 = 470 万道问题,覆盖 75 学科
  • 去重:MinHash + 13-gram 去污染(对所有评估基准)

实验关键数据

主实验

模型 MMLU MMLU-Pro GPQA-Diamond SuperGPQA
Llama-3.1-8B-Instruct (官方) 70.86 47.38 23.18 20.08
Llama-3.1-8B-SFT (DLR-Web+Book) 84.13 76.04 65.45 45.06
Qwen3-4B Thinking (官方) 82.87 69.34 54.70 43.30
Qwen3-4B-Base-SFT (DLR-Web+Book) 85.00 73.06 63.69 46.15

仅用 DLR 数据 SFT 的 base 模型超越了经过完整后训练的官方模型!

消融实验

数据源 MMLU GPQA-Diamond 说明
DLR-Web only 83.55 53.74 网页源
DLR-Book only 84.73 62.58 书籍源更好(教育深度更高)
DLR-Web + Book 85.00 63.69 两者互补最佳
OpenThoughts3 (基线) -- ~50 Design Logic 数据更优

关键发现

  • Design Logic 合成的数据难度显著更高:Very Hard 占比远超所有基线数据集和评估基准,Easy 占比仅 0.27%-0.72%
  • 多样性远超基线:在 5 个语义多样性指标上全面领先,1-NN Distance 是基线的约 2 倍,说明几乎没有语义重复
  • 学科覆盖最均衡:75 学科覆盖 STEM、人文、社科、应用等,而现有数据集严重偏向数学
  • 书籍源 > 网页源:DLR-Book 在大部分指标上优于 DLR-Web,因教科书提供更结构化的深度知识
  • SFT base > 官方后训练:这是最惊人的发现——仅用高质量合成数据做 SFT 就能超越含 RL、DPO 等完整后训练流程的官方模型

亮点与洞察

  • Design Logic 作为可复用元知识:这是一个根本性的创新——不是合成数据,而是合成"出题能力"。12.5 万条 Design Logic 可以无限复用到新的文本上,实现规模化
  • "题目比答案更重要":引用爱因斯坦名言,强调高质量问题的核心地位。给定好问题,任何模型都能生成回答——这与"好的 prompt 比好的模型更重要"的洞察异曲同工
  • 470 万道题覆盖 75 学科:这是目前最大规模的多学科推理数据集,且质量(难度+多样性)均超越基线
  • 对后训练的启示:SFT data quality >> SFT+RL+DPO 的完整流程但用低质量数据。这挑战了"RL 是必需的"这一假设

局限性 / 可改进方向

  • Design Logic 的提取依赖已有题库——如果某学科无现成考题则无法提取 logic
  • 回答的 CoT 准确率仅 71.48%(因开放题的多样性),用于 SFT 时可能引入噪声
  • 未探索 RL 训练——如果在 DLR 数据上再加 RL/DPO 是否能进一步提升?
  • 75 学科分类依赖 LLM 标注,分类准确性为 90.14%,有约 10% 的误标

相关工作与启发

  • vs Evol-Instruct (Query-centric): 受限于种子覆盖面,不能跨学科。DESIGNER 从文本出发,学科覆盖远更广
  • vs NaturalReasoning/WebInstruct (Document-centric): 缺乏出题指导原则,常退化为事实回忆。Design Logic 提供了结构化的出题控制
  • vs Nemotron-Post-Training: 学科分布较均衡但难度低。DLR 在难度和多样性上全面胜出
  • vs OpenThoughts3: 推理深度好但严重偏向数学。DLR 在非数学学科上优势巨大

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Design Logic 的概念和逆向工程方法论是全新的贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ Qwen3 + Llama3 多模型、多基准评测 + 数据质量分析 + 消融
  • 写作质量: ⭐⭐⭐⭐ 流水线描述清晰,但论文偏工程化,理论分析较少
  • 价值: ⭐⭐⭐⭐⭐ 470 万道多学科推理题 + 12.5万条 Design Logic,对 LLM 后训练社区极有价值