Towards the Law of Capacity Gap in Distilling Language Models¶

会议: ACL 2025
arXiv: 2311.07052
领域: LLM / Model Compression
关键词: 知识蒸馏, 容量差距, Scaling Law, 模型压缩, MiniMA

一句话总结¶

揭示了语言模型蒸馏中的"容量差距定律"——最优教师模型的参数量与学生模型成线性关系（约 2.5 倍），将 LLM 蒸馏中的"不可能三角"转化为可解问题，并据此成功蒸馏出 3B 的 MiniMA 模型。

研究背景与动机¶

知识蒸馏是模型压缩的核心技术之一。然而，蒸馏中存在一个被广泛观察到的"容量差距诅咒"（Curse of Capacity Gap）：

更大的教师模型并不总是产生更好的学生模型
当教师与学生的容量差距过大时，学生性能反而下降
因此存在一个最优教师规模，但需要在不同规模上进行穷举实验才能找到

这在 LLM 时代构成了一个"不可能三角"： 1. 期望的学生规模 2. 最优教师规模 3. 低计算开销

三者无法同时满足——确定最优教师需要大量计算开销的蒸馏试验。

方法详解¶

整体框架¶

通过小规模模型（<3B）的系统实验，发现学生规模与最优教师规模之间存在稳定的线性关系，然后将这一 "定律" 外推到 LLM 规模（7B→3B 蒸馏）验证其有效性。

关键设计¶

1. 小规模 Pilot 实验

实验流程： - 选取不同规模的教师模型（GPT2 系列: 140M-1.6B; Pythia 系列: 70M-2.8B） - 通过结构化剪枝将教师压缩为不同大小的学生 - 对每个（教师规模, 学生规模）对进行蒸馏 - 观察每个学生规模下哪个教师产生最佳性能

2. 结构化剪枝

采用基于参数表达力分数（accumulated absolute gradients）的剪枝： - 为每层的注意力头、FFN 中间神经元附加可学习变量 \(\xi, \nu\) - 为隐藏状态附加跨层共享变量 \(\mu\) - 计算表达力分数 \(\mathbb{I} = \mathbb{E}|\partial\mathcal{L}/\partial\xi|\) 进行重要性排序 - 各组件使用相同稀疏度 \(p' = 1 - \sqrt{1-p}\)（因为隐藏状态与头/神经元的稀疏度有乘积效应）

3. 三条关键假设被验证

H1: 容量差距确实影响学生性能 ✓
H2: 给定学生规模，最优教师规模存在 ✓（学生性能随教师增大呈先升后降模式）
H3: 最优教师规模在不同设定下保持一致 ✓（约在 ~60% 稀疏度处）

4. 定律的刻画

\[\mathbb{T}^* \approx 2.498 \cdot \mathbb{S} - 11.498 \approx 2.5 \cdot \mathbb{S}\]

拟合 \(R^2 = 0.9957\)，线性关系几乎完美
推论：最优学生规模约为教师的 0.4 倍
该定律在不同模型架构（GPT2 vs Pythia）、数据规模、剪枝范式和蒸馏目标下均成立

5. 大规模外推——MiniMA

基于定律，将 LLaMA2-7B 蒸馏为 ~3B 的 MiniMA： - 使用启发式剪枝规则确保跨层对称结构（丢弃 4 层最底 + 4 层最顶） - 在 Pile + GitHub + WuDao 混合数据（126B tokens）上蒸馏 - 使用 token 级交叉熵损失（教师分布 + 真实标签各占 50%） - 进一步在 1.1M 条指令数据上微调得到 MiniChat

实验关键数据¶

主实验¶

MiniMA（3B）vs 同规模竞争者在标准基准上的表现：

模型	参数	MMLU	CEval	DROP	BBH	GSM8K	HumanEval
LLaMA2	7B	46.00	34.40	31.57	32.02	14.10	12.80
ShortGPT	3B	25.57	26.79	8.72	7.53	4.52	0.00
MiniMA	3B	显著优于同规模竞争者

MiniMA 在所有基准上大幅超越同规模的剪枝/蒸馏基线
MiniChat 在指令跟随基准上超越多个规模匹配的竞争者，甚至可与更大规模 LLM 媲美

关键发现¶

线性定律的普适性：在 GPT2、Pythia 两个模型族和不同数据规模下，线性关系一致成立
外推的有效性：从小规模（<3B）发现的定律成功指导了 7B→3B 的蒸馏
行业验证：当前已有的蒸馏 SLM（如 Phi 系列）的教师-学生规模比例与该线性定律大致吻合
对比纯剪枝：ShortGPT 等不经蒸馏的剪枝方法性能远不如 MiniMA，验证了蒸馏的必要性

亮点与洞察¶

Scaling Law 视角的创新转换：不再试图"打破"容量差距诅咒，而是发现其中隐藏的规律并利用它，思路非常优雅
\(\mathbb{T}^* \approx 2.5 \cdot \mathbb{S}\) 的简洁性：一个如此简单的线性关系能在不同设定下稳定成立，具有很强的指导价值
从小实验外推到大规模：符合 scaling law 研究的经典范式，高效利用计算资源
实际落地价值极高：蒸馏 LLM 时不再需要穷举试验，直接用定律确定最优教师规模

局限性¶

定律中的常数（2.5 倍）在特定剪枝和蒸馏设定下得出，其他压缩方案（如量化蒸馏）是否适用未验证
仅验证到 7B→3B 规模，更大规模（如 70B→28B）的外推是否依然成立是开放问题
使用结构化剪枝得到学生模型的初始化，与直接从头训练小模型再蒸馏的设定不同
为了适用于中文任务对 LLaMA2 做了词表扩展和增量训练，增加了实验的复杂性
蒸馏仅用最基础的 token 级交叉熵损失，未探索更先进的蒸馏目标（如序列级蒸馏）的影响

评分¶

新颖性: ⭐⭐⭐⭐⭐ (首次系统性地发现并刻画容量差距定律)
技术深度: ⭐⭐⭐⭐ (实证驱动但有理论支撑，实验设计严谨)
实验充分度: ⭐⭐⭐⭐⭐ (两个模型族 × 多数据规模 × 大规模外推验证)
实用性: ⭐⭐⭐⭐⭐ (直接指导 LLM 蒸馏实践，MiniMA 模型已开源)