Plug-in and Fine-tuning: Bridging the Gap between Small Language Models and Large Language Models¶
会议: ACL 2025
arXiv: 2506.07424
领域: LLM 效率
关键词: 知识蒸馏, 小语言模型, 大语言模型, 层插入, 参数高效微调
一句话总结¶
提出 PiFi 框架,将 LLM 的单个冻结层"插入"到 SLM 中再进行微调,以极低的额外计算成本将 LLM 的语言知识和泛化能力迁移到小模型,在 NLU 和 NLG 任务上均获得一致提升。
研究背景与动机¶
大语言模型(LLM)拥有强大的泛化能力和语言知识,但高昂的计算成本限制了其在资源受限环境下的部署。小语言模型(SLM,通常 100M-5B 参数)计算高效但泛化能力不足。现有的知识蒸馏方法分为两类: - 参数化方法:需要白盒教师模型,使用输出分布或中间特征训练学生模型 - 非参数化方法:通过 LLM 生成合成训练数据来训练小模型
这些方法要么需要大量计算资源,要么牺牲了 LLM 的参数级知识。作者受到视觉领域中 ViT+LLM 层的启发(Pang et al., 2024 发现 LLM 层可作为视觉编码器增强图像分类),提出了一个更直接的方案:直接将 LLM 的一层物理插入 SLM。
方法详解¶
整体框架¶
PiFi(Plug-in and Fine-tuning)的核心思想是从 LLM 中提取单个 Transformer 层(默认取最后一层),将其插入 SLM 的处理流程中,然后仅微调 SLM 和连接层参数,而 LLM 层保持冻结。
关键设计¶
Encoder-based 模型(如 BERT)的插入方式: - 在编码器 Enc 和分类头 Head 之间插入 LLM 层 L_LLM - 由于隐藏维度不同(如 BERT 768 vs Llama 4096),添加两个线性变换层 L_in 和 L_out 进行维度适配 - 流程:h_enc → L_in → L_LLM → L_out → Head
Encoder-Decoder 模型(如 T5)的插入方式: - 将 LLM 层插入编码器和解码器之间 - 编码器输出经 L_in 投影到 LLM 维度,经 L_LLM 处理后由 L_out 投影回原始维度,再送入解码器
微调策略: - 仅训练 SLM 原始参数 + L_in + L_out + 分类头 - LLM 层 L_LLM 参数完全冻结,保留预训练知识 - 避免灾难性遗忘问题
实验关键数据¶
主实验¶
NLU 任务平均准确率提升(使用 Llama-3.1-8B 最后一层): | 基础模型 | 原始平均准确率 | +PiFi 后 | 提升 | |---------|--------------|---------|------| | BERT_base | 82.45% | 84.75% | +2.30% | | RoBERTa_base | 84.32% | 85.42% | +1.10% | | ELECTRA_base | 82.00% | 86.71% | +4.71% | | DeBERTa_base | 84.40% | 85.63% | +1.23% | | DeBERTa-V3_base | 86.34% | 87.40% | +1.06% |
NLG 任务(T5_base 机器翻译 Multi30K): - BLEU: 0.5301 → 0.5413 - ROUGE: 0.6195 → 0.6536(+3.41%) - BERTScore: 0.8724 → 0.8978
NLG 任务(BART_base 文本摘要 CNN/DailyMail): - BLEU: 0.2270 → 0.2331 - METEOR: 0.1782 → 0.1799
关键发现¶
- 跨任务一致提升:PiFi 在分类、NLI、QA、翻译、摘要等任务上均带来提升,证明了框架的通用性
- 域迁移能力增强:BERT+PiFi 在 IMDB 上训练后,在 Tweet Sentiment 上准确率从 70.40% 提升至 83.68%(+13.28%),在 CR 上从 74.56% 提升至 79.86%
- ELECTRA 受益最大:平均准确率提升 4.71%,显示判别式模型可能从生成式 LLM 知识中获益更多
- 冻结 LLM 层的必要性:消融实验证明解冻 LLM 层会导致灾难性遗忘,性能反而下降
- 额外参数开销小:主要新增仅为两个线性变换层 L_in 和 L_out
亮点与洞察¶
- 极简设计理念:仅用单层 LLM 就能显著增强 SLM,说明 LLM 的单层已编码了丰富的语言知识
- 即插即用:框架对 SLM 架构(encoder-only / encoder-decoder)均适用,不修改模型核心结构
- 跨语言迁移:多语言分类实验表明,使用目标语言预训练的 LLM 层能显著提升 SLM 的跨语言能力
- 与知识蒸馏互补:PiFi 是参数级知识迁移,与数据级蒸馏方法正交,可以结合使用
局限性¶
- 当前仅测试了 Llama-3.1-8B 的层,对其他 LLM(如 Mistral、Qwen)的泛化性未充分验证
- 隐藏维度差距过大时(如 768→4096),L_in/L_out 的线性投射可能造成信息损失
- 默认使用最后一层的选择缺乏系统性层选择策略的探索
- 在超大规模 SLM(如 3B+)上的效果未验证,收益可能递减
- 微调阶段需要完整的 LLM 层前向传播,增加了训练时间(虽然推理时也需要)
相关工作¶
- 知识蒸馏: Zhong et al. (2024) 参数化蒸馏;Ye et al. (2022) 非参数化蒸馏
- 小语言模型增强: Gururangan et al. (2020) 领域自适应预训练
- LLM 层复用: Pang et al. (2024) 在视觉任务中使用 LLM 层作为视觉编码器
- 参数高效微调: LoRA, Adapter 等方法
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 7 |
| 实验完整性 | 8 |
| 实用价值 | 8 |
| 写作质量 | 7 |
| 总体评价 | 7.5 |