Boomerang Distillation Enables Zero-Shot Model Size Interpolation¶

会议: ICLR2026
arXiv: 2510.05064
代码: https://github.com/dcml-lab/boomerang-distillation
领域: model_compression
关键词: 知识蒸馏, 模型压缩, 零样本插值, 层剪枝, 模型家族

一句话总结¶

发现并系统研究"回旋蒸馏"现象：从大模型（teacher）蒸馏出小模型（student）后，将教师的层块重新插回学生模型，无需任何额外训练即可构建任意中间尺寸的模型，其性能在 student 和 teacher 之间平滑插值，匹配甚至超越同等尺寸的独立蒸馏模型。

领域现状：LLM 需要部署在从边缘设备到大规模集群的多样化环境中，模型开发者通常发布不同参数规模的模型家族（如 Qwen3、Llama 3.2），但每个尺寸的模型都需要独立训练，计算成本极高。
现有痛点：
从零训练多个尺寸的模型代价高昂，因此现有模型家族通常只有几个粗粒度的尺寸选项
知识蒸馏虽然比独立预训练高效，但每个 student 仍需完整的训练流程，无法扩展到细粒度尺寸
层剪枝（如 ShortGPT、LaCo）仅使用教师信息，性能快速退化，尤其是生成能力
核心矛盾：部署需要细粒度的尺寸-性能权衡空间，但训练成本使得只能提供少量粗粒度选项。
核心 idea：蒸馏后的 student 与 teacher 之间存在层级对齐，可以将 teacher 的层块"贴回"student 来构建中间模型——一次蒸馏，无限尺寸。

如何从一对 teacher-student 模型中，零训练代价地构建出任意中间尺寸、性能平滑插值的模型家族？

三阶段流程：(1) Student 初始化——从 teacher 的 N 层中等间隔抽取 M 层；(2) 知识蒸馏——用 CE + KL + 逐层余弦距离损失训练 student；(3) Student 打补丁——将 teacher 的连续层块替换回 student 的对应层，构建中间模型。

Student 初始化（层剪枝）:
将 teacher 的 N 层划分为 M 个连续块 \(\mathcal{B} = (\mathbf{b}^{(1)} \dots \mathbf{b}^{(M)})\)
Student 的第 \(i\) 层初始化为对应块的第一层：\(\theta_S^{(i)} = \theta_T^{(\ell_i)}\)
嵌入层和 LM head 直接复制
知识蒸馏（含对齐损失）:
总损失：\(\mathcal{L} = \mathcal{L}_{CE} + \lambda_{KL} \mathcal{L}_{KL} + \lambda_{cos} \sum_{i=1}^{M} \mathcal{L}_{cos}^{(i)}\)
逐层余弦距离损失是关键：将 student 第 \(i\) 层的隐藏状态与 teacher 块 \(\mathbf{b}^{(i)}\) 的最后一层对齐
设计动机：确保 student 层近似 teacher 块的输出，这样才能在打补丁时将 teacher 块无缝替换回去
实验证明：无余弦距离损失仍可产生回旋蒸馏（因为 teacher 权重初始化本身提供对齐），但加上后性能更稳定
Student 打补丁（零样本模型构建）:
用 teacher 块 \(\mathbf{b}^{(i)}\)（多层）替换 student 的单层 \(\theta_S^{(i)}\)
逐步替换可构建从 M 层到 N 层的任意中间模型
实践中按从最后一层向前的顺序打补丁效果最好（Llama 除外，其前两层特殊性要求保留前两层并从前向后打补丁）

Qwen3-4B 系列（分类准确率 & 生成准确率）： - ✅ 回旋蒸馏创建的中间模型在尺寸和性能上平滑插值 - ❌ 朴素层剪枝：<4B 参数时分类和生成性能剧烈下降 - ❌ 随机初始化蒸馏后打补丁：几乎无性能增益——说明 teacher 权重初始化是必要条件

小尺寸模型：回旋蒸馏的插值模型与独立蒸馏模型性能相当
大尺寸模型：回旋蒸馏反而优于独立蒸馏模型——因为蒸馏语料（The Pile）质量低于原始预训练数据，独立蒸馏受灾难性遗忘影响，而回旋蒸馏通过贴回 teacher 权重保留了原始知识
与预训练模型（Pythia-2.8B、Llama-3.2-3B）性能相当

发现新现象：首次识别并系统研究"回旋蒸馏"——蒸馏后的 student 可以通过贴回 teacher 层实现零样本尺寸插值，这是一个此前未被发现的 LLM 特性
实用价值极高：一次蒸馏训练即可获得任意中间尺寸的模型家族，训练成本降低数量级
思路简洁优雅：无需特殊路由器、弹性架构或额外训练，仅靠标准蒸馏 + 层替换
对齐损失的双重作用：余弦距离损失既帮助学生模型学习，又确保与教师层的兼容性，为后续打补丁奠定基础
灾难性遗忘的"解药"：当蒸馏语料质量低于原始预训练数据时，回旋蒸馏通过贴回 teacher 权重天然避免了遗忘

vs 标准知识蒸馏 (Hinton et al.)：标准蒸馏每个尺寸需独立训练；回旋蒸馏训练一个 student 即可覆盖所有中间尺寸
vs ShortGPT / LaCo：层剪枝仅利用 teacher 信息，几层后性能崩溃；回旋蒸馏同时利用 student 和 teacher 信息，性能远优
vs 模型插值 (Wortsman et al.)：传统模型插值在相同尺寸的模型权重间操作；回旋蒸馏在不同尺寸的 teacher-student 间插值
vs 弹性 Transformer (Cai et al.)：需要训练 Gumbel Softmax 路由器；回旋蒸馏用标准蒸馏管线即可
vs Minitron (Muralidharan et al.)：同时做层剪枝+神经元剪枝，维度不匹配阻止打补丁；回旋蒸馏保持维度一致性