Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation¶

会议: ICLR 2026
arXiv: 2602.12172
代码: 无
领域: 模型压缩
关键词: 知识蒸馏, 合成数据, 课程学习, 教育学启发, LLM压缩

一句话总结¶

提出 IOA（Identifier-Organizer-Adapter）框架，借鉴 Bloom 掌握学习原则和 Vygotsky 最近发展区理论，通过诊断知识缺陷、设计渐进课程、适配认知水平三个阶段，实现教育学驱动的 LLM 知识蒸馏。

现有 LLM 知识蒸馏方法的不足：

知识识别缺失：合成数据缺少针对学生模型特定知识缺陷的靶向性

知识组织缺失：数据生成无教学顺序，忽视知识的渐进学习轨迹

知识适配缺失：未考虑学生模型的认知容量，直接使用教师模型的复杂表达

核心类比：将 LLM 蒸馏视为教学过程——教师（大模型）需要根据学生（小模型）的先验知识和学习进度，动态选择教学内容和策略。

IOA 是一个三阶段流水线：Identifier（识别什么知识需要教）→ Organizer（组织知识的教授顺序）→ Adapter（适配知识的表达方式）。

Knowledge Identifier（知识识别器）：
- 将能力域分解为层次化知识模块：\(\mathcal{D} = \{K_1, K_2, \ldots, K_m\}\)
- 量化师生差距：\(\Delta(k) = \frac{P_T(k) - P_S(k)}{P_T(k)}\)，\(\Delta(k) > \tau_{gap}=0.3\) 标记为缺陷
- 构建知识依赖图 \(G=(V,E)\)：通过条件性能分析确定前置关系
- 优先级排序：\(\text{Severity}(k) = \alpha \cdot \Delta(k) + (1-\alpha) \cdot \text{Connectivity}(k)\)
Knowledge Organizer（知识组织器）：
- 课程序列构建：拓扑排序依赖图，确保先决知识先学习
- Vygotsky ZPD 约束：相邻阶段难度增量受控 \(\leq \tau_{ZPD} = 0.15\)
- Bloom 掌握学习：每阶段需达到 \(\min_{k \in s_i} \frac{P_S(k)}{P_T(k)} \geq \tau_{mastery} = 0.9\) 才能进入下一阶段
- 未达标时生成补救数据继续训练
Knowledge Adapter（知识适配器）：
- 抽象概念具象化：将导数解释为"汽车速度表"
- 复杂推理分解：信息提取 → 关系识别 → 方程建立 → 求解 → 验证
- 认知负载管理：从 2×2 整数系数开始，逐步增加复杂度
- 表示格式优化：标准化解题模板
- 语言复杂度降低：用简单等价词替换术语

方法	DollyEval	GSM8K	MATH	HumanEval	MBPP	GPQA-D
Undistilled	25.37	37.24	5.79	22.46	31.58	7.95
Self-Instruct	32.18	43.69	7.12	25.63	36.27	9.28
MADA (次优)	36.42	52.04	13.15	33.39	42.18	11.93
IOA (Ours)	38.16	55.79	15.53	40.64	47.86	13.74