Plug-in and Fine-tuning: Bridging the Gap between Small Language Models and Large Language Models¶

会议: ACL 2025
arXiv: 2506.07424
领域: LLM 效率
关键词: 知识蒸馏, 小语言模型, 大语言模型, 层插入, 参数高效微调

一句话总结¶

提出 PiFi 框架，将 LLM 的单个冻结层"插入"到 SLM 中再进行微调，以极低的额外计算成本将 LLM 的语言知识和泛化能力迁移到小模型，在 NLU 和 NLG 任务上均获得一致提升。

研究背景与动机¶

大语言模型（LLM）拥有强大的泛化能力和语言知识，但高昂的计算成本限制了其在资源受限环境下的部署。小语言模型（SLM，通常 100M-5B 参数）计算高效但泛化能力不足。现有的知识蒸馏方法分为两类： - 参数化方法：需要白盒教师模型，使用输出分布或中间特征训练学生模型 - 非参数化方法：通过 LLM 生成合成训练数据来训练小模型

这些方法要么需要大量计算资源，要么牺牲了 LLM 的参数级知识。作者受到视觉领域中 ViT+LLM 层的启发（Pang et al., 2024 发现 LLM 层可作为视觉编码器增强图像分类），提出了一个更直接的方案：直接将 LLM 的一层物理插入 SLM。

方法详解¶

整体框架¶

PiFi（Plug-in and Fine-tuning）的核心思想是从 LLM 中提取单个 Transformer 层（默认取最后一层），将其插入 SLM 的处理流程中，然后仅微调 SLM 和连接层参数，而 LLM 层保持冻结。

关键设计¶

Encoder-based 模型（如 BERT）的插入方式： - 在编码器 Enc 和分类头 Head 之间插入 LLM 层 L_LLM - 由于隐藏维度不同（如 BERT 768 vs Llama 4096），添加两个线性变换层 L_in 和 L_out 进行维度适配 - 流程：h_enc → L_in → L_LLM → L_out → Head

Encoder-Decoder 模型（如 T5）的插入方式： - 将 LLM 层插入编码器和解码器之间 - 编码器输出经 L_in 投影到 LLM 维度，经 L_LLM 处理后由 L_out 投影回原始维度，再送入解码器

微调策略： - 仅训练 SLM 原始参数 + L_in + L_out + 分类头 - LLM 层 L_LLM 参数完全冻结，保留预训练知识 - 避免灾难性遗忘问题

实验关键数据¶

主实验¶

NLU 任务平均准确率提升（使用 Llama-3.1-8B 最后一层）： | 基础模型 | 原始平均准确率 | +PiFi 后 | 提升 | |---------|--------------|---------|------| | BERT_base | 82.45% | 84.75% | +2.30% | | RoBERTa_base | 84.32% | 85.42% | +1.10% | | ELECTRA_base | 82.00% | 86.71% | +4.71% | | DeBERTa_base | 84.40% | 85.63% | +1.23% | | DeBERTa-V3_base | 86.34% | 87.40% | +1.06% |

NLG 任务（T5_base 机器翻译 Multi30K）： - BLEU: 0.5301 → 0.5413 - ROUGE: 0.6195 → 0.6536（+3.41%） - BERTScore: 0.8724 → 0.8978

NLG 任务（BART_base 文本摘要 CNN/DailyMail）： - BLEU: 0.2270 → 0.2331 - METEOR: 0.1782 → 0.1799

关键发现¶

跨任务一致提升：PiFi 在分类、NLI、QA、翻译、摘要等任务上均带来提升，证明了框架的通用性
域迁移能力增强：BERT+PiFi 在 IMDB 上训练后，在 Tweet Sentiment 上准确率从 70.40% 提升至 83.68%（+13.28%），在 CR 上从 74.56% 提升至 79.86%
ELECTRA 受益最大：平均准确率提升 4.71%，显示判别式模型可能从生成式 LLM 知识中获益更多
冻结 LLM 层的必要性：消融实验证明解冻 LLM 层会导致灾难性遗忘，性能反而下降
额外参数开销小：主要新增仅为两个线性变换层 L_in 和 L_out

亮点与洞察¶

极简设计理念：仅用单层 LLM 就能显著增强 SLM，说明 LLM 的单层已编码了丰富的语言知识
即插即用：框架对 SLM 架构（encoder-only / encoder-decoder）均适用，不修改模型核心结构
跨语言迁移：多语言分类实验表明，使用目标语言预训练的 LLM 层能显著提升 SLM 的跨语言能力
与知识蒸馏互补：PiFi 是参数级知识迁移，与数据级蒸馏方法正交，可以结合使用

局限性¶

当前仅测试了 Llama-3.1-8B 的层，对其他 LLM（如 Mistral、Qwen）的泛化性未充分验证
隐藏维度差距过大时（如 768→4096），L_in/L_out 的线性投射可能造成信息损失
默认使用最后一层的选择缺乏系统性层选择策略的探索
在超大规模 SLM（如 3B+）上的效果未验证，收益可能递减
微调阶段需要完整的 LLM 层前向传播，增加了训练时间（虽然推理时也需要）

评分¶

维度	分数 (1-10)
创新性	7
实验完整性	8
实用价值	8
写作质量	7
总体评价	7.5