DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning¶

会议: ICLR 2026
arXiv: 2508.12726
代码: https://attention-is-all-i-need.github.io/Design-Logic-Reasoning
领域: LLM推理
关键词: data synthesis, design logic, multidisciplinary reasoning, question generation, SFT

一句话总结¶

提出 Design Logic（设计逻辑）——从真题中逆向工程出的可复用元知识，用于指导从原始文本合成多学科推理问题。构建了 470 万道覆盖 75 学科的推理题目，SFT 后的 base 模型甚至超越经过完整后训练的官方模型。

研究背景与动机¶

领域现状：LLM 在数学和编程上的推理能力提升显著（受益于竞赛平台丰富的开放题源），但在大学级别的跨学科推理上仍落后于人类专家。核心瓶颈是高质量多学科推理训练数据的严重匮乏。
现有痛点：(a) Query-centric 方法（如 Evol-Instruct）通过改写种子问题扩展数据，受限于种子覆盖面和模型偏差；(b) Document-centric 方法从文本生成问题，但难以控制难度和多样性，常退化为事实回忆；(c) 现有数据集学科分布严重偏斜（数学占绝大多数），跨学科覆盖不足。
核心矛盾：如何从原始文本（书籍、网页）大规模合成具有多步推理深度、可控难度、高多样性的考试级别问题？缺乏指导原则让 LLM 不知道如何将知识转化为复杂问题。
本文要解决什么？ 提供一个系统化的多学科推理数据合成流水线——不仅合成问题，还合成"出题方法论"。
切入角度：人类教育专家出题时遵循结构化的设计过程（识别目标→构建情境→设计推理路径→制作干扰选项→验证）。如果能从真题中提取这种"出题逻辑"（Design Logic），就可以将其作为可复用模板应用到新的源文本上。
核心 idea 一句话：从真题中逆向工程出 12.5 万条 Design Logic（出题元知识），然后通过 retrieve-and-generate 将这些 logic 与原始文本匹配，指导 LLM 按相同推理模式从全新文本出题。

方法详解¶

整体框架¶

三阶段流水线：(1) 数据处理——对题库、书籍语料、网页语料进行多维标注和过滤；(2) Design Logic 提取——从 13.2 万道精选真题中逆向工程出 12.5 万条结构化出题逻辑；(3) 问题合成——两阶段 retrieve-and-generate 将 Design Logic 与源文本匹配后生成问题。

关键设计¶

Design Logic 提取:
做什么：从真实考题中提取可复用的出题元知识
核心思路：用 DeepSeek-R1 分析每道真题，(i) 推断出题者的思维过程，(ii) 追溯从知识点到成题的构造过程，(iii) 抽象为结构化设计原则（Mermaid 格式）。再通过语义相似度去重（基于 Qwen3-Embedding 的图聚类，阈值 \(\tau=0.85\)），最终得到 125,328 条独特 Design Logic
设计动机：Design Logic 是与具体学科内容解耦的元知识——同一个出题逻辑可以用于不同学科的不同知识点，实现"出题能力的迁移"
高质量源文本库构建:
书籍语料：章节级处理，MinHash 去重，ModernBERT 分类器标注学科，BERT 评估可读性，fineweb-edu-classifier 评估教育价值。筛出 300 万高质量文本段
网页语料：从 FineFineWeb 6.5B 文本中用 Qwen3-30B 五级评分筛选（≥3），重新标注学科对齐 75 学科分类体系
两阶段 Retrieve-and-Generate 问题合成:
做什么：为每段源文本找到最匹配的 Design Logic 并生成问题
Stage 1: 粗检索——计算源文本与 Design Logic 的向量余弦相似度，取 top-5 候选
Stage 2: 精匹配+生成——DeepSeek-R1 从 top-5 中选出最适合的 logic，严格按其步骤从源文本生成研究生级别考试题目 + 参考答案
设计动机：避免穷举匹配的组合爆炸；先粗后精保证匹配质量
Response 合成:
用 Qwen3-235B-A22B-Thinking 为每道题生成 long CoT 回答
问题-回答对用于 SFT 训练

损失函数 / 训练策略¶

SFT: 标准自回归损失，在 Qwen3-Base 和 Llama3-Base 上训练
数据规模：DLR-Book 304 万 + DLR-Web 166 万 = 470 万道问题，覆盖 75 学科
去重：MinHash + 13-gram 去污染（对所有评估基准）

实验关键数据¶

主实验¶

模型	MMLU	MMLU-Pro	GPQA-Diamond	SuperGPQA
Llama-3.1-8B-Instruct (官方)	70.86	47.38	23.18	20.08
Llama-3.1-8B-SFT (DLR-Web+Book)	84.13	76.04	65.45	45.06
Qwen3-4B Thinking (官方)	82.87	69.34	54.70	43.30
Qwen3-4B-Base-SFT (DLR-Web+Book)	85.00	73.06	63.69	46.15

仅用 DLR 数据 SFT 的 base 模型超越了经过完整后训练的官方模型！

消融实验¶

数据源	MMLU	GPQA-Diamond	说明
DLR-Web only	83.55	53.74	网页源
DLR-Book only	84.73	62.58	书籍源更好（教育深度更高）
DLR-Web + Book	85.00	63.69	两者互补最佳
OpenThoughts3 (基线)	--	~50	Design Logic 数据更优

关键发现¶

Design Logic 合成的数据难度显著更高：Very Hard 占比远超所有基线数据集和评估基准，Easy 占比仅 0.27%-0.72%
多样性远超基线：在 5 个语义多样性指标上全面领先，1-NN Distance 是基线的约 2 倍，说明几乎没有语义重复
学科覆盖最均衡：75 学科覆盖 STEM、人文、社科、应用等，而现有数据集严重偏向数学
书籍源 > 网页源：DLR-Book 在大部分指标上优于 DLR-Web，因教科书提供更结构化的深度知识
SFT base > 官方后训练：这是最惊人的发现——仅用高质量合成数据做 SFT 就能超越含 RL、DPO 等完整后训练流程的官方模型

亮点与洞察¶

Design Logic 作为可复用元知识：这是一个根本性的创新——不是合成数据，而是合成"出题能力"。12.5 万条 Design Logic 可以无限复用到新的文本上，实现规模化
"题目比答案更重要"：引用爱因斯坦名言，强调高质量问题的核心地位。给定好问题，任何模型都能生成回答——这与"好的 prompt 比好的模型更重要"的洞察异曲同工
470 万道题覆盖 75 学科：这是目前最大规模的多学科推理数据集，且质量（难度+多样性）均超越基线
对后训练的启示：SFT data quality >> SFT+RL+DPO 的完整流程但用低质量数据。这挑战了"RL 是必需的"这一假设

局限性 / 可改进方向¶

Design Logic 的提取依赖已有题库——如果某学科无现成考题则无法提取 logic
回答的 CoT 准确率仅 71.48%（因开放题的多样性），用于 SFT 时可能引入噪声
未探索 RL 训练——如果在 DLR 数据上再加 RL/DPO 是否能进一步提升？
75 学科分类依赖 LLM 标注，分类准确性为 90.14%，有约 10% 的误标

评分¶

新颖性: ⭐⭐⭐⭐⭐ Design Logic 的概念和逆向工程方法论是全新的贡献
实验充分度: ⭐⭐⭐⭐⭐ Qwen3 + Llama3 多模型、多基准评测 + 数据质量分析 + 消融
写作质量: ⭐⭐⭐⭐ 流水线描述清晰，但论文偏工程化，理论分析较少
价值: ⭐⭐⭐⭐⭐ 470 万道多学科推理题 + 12.5万条 Design Logic，对 LLM 后训练社区极有价值