A Semantic-Aware Layer-Freezing Approach to Computation-Efficient Fine-Tuning of Language Models¶
会议: ACL 2025
arXiv: 2406.11753
代码: 无
领域: LLM微调效率
关键词: 层冻结, 微调效率, 语义偏差, 缩放律, 反向传播优化
一句话总结¶
通过分析LLM推理过程中潜在表征的转移轨迹(transition traces)计算各层语义偏差,结合推导的缩放律公式估计各层对降低损失的贡献,从而确定"在哪些层微调",实现与PEFT正交的高效微调方法。
研究背景与动机¶
微调是将预训练语言模型适配到下游任务的关键步骤,但全参数微调的计算开销巨大。现有工作主要关注"如何微调"——例如LoRA、Adapter等参数高效微调(PEFT)方法通过减少可训练参数量来降低成本。然而,一个被忽视的正交问题是"在哪些层微调"——即使使用PEFT,如果在所有层上都进行微调,反向传播的计算开销仍然很高。
核心矛盾:不同层对下游任务的贡献是不均匀的。早期层通常编码通用的语言特征(语法、词法),而后期层更多编码任务相关的语义信息。盲目对所有层进行微调不仅浪费计算资源,还可能因为过度修改已有的通用表征而损害泛化能力。
现有痛点:层冻结(layer freezing)并不是新idea,但之前的方法要么采用简单的启发式(如冻结前N层),要么需要昂贵的搜索来确定最优冻结策略。缺乏一个基于理论的框架来自动确定哪些层值得微调。
本文的切入角度是:通过语义分析LLM的推理过程,利用潜在表征在各层之间的转移轨迹来量化每层的"语义偏差",然后通过缩放律估计各层的微调收益,从而以最小的搜索成本确定最优的微调层范围。
方法详解¶
整体框架¶
给定预训练模型和下游任务数据,方法分为三步:(1) 在下游数据上做一次前向传递,收集每层的潜在表征转移轨迹(transition traces),(2) 计算每层的语义偏差(deviation),(3) 使用推导的缩放律公式估计各层微调对降低总损失的增益,确定最优微调层集合,最后只在选定层上执行反向传播。
关键设计¶
-
转移轨迹(Transition Traces)与语义偏差:
- 功能:量化输入经过每层Transformer后的表征变化程度
- 核心思路:对于第 \(l\) 层,定义转移轨迹为输入和输出隐藏状态的差异。设 \(\mathbf{h}_l\) 为第 \(l\) 层输出,则第 \(l\) 层的语义偏差定义为:
\(d_l = \|\mathbf{h}_l - \mathbf{h}_{l-1}\|\)
这个偏差度量了该层对表征的"改动量"。在下游任务数据上,如果某层的平均偏差很大,说明该层的当前参数与下游任务需要的表征之间存在较大的"语义落差"——即该层有更大的微调需求 - 设计动机:直觉上,如果一层几乎不改变表征(低偏差),那么微调它的收益很小;反之,高偏差的层有更大的优化空间
-
基于缩放律的层增益估计:
- 功能:推导一个公式来估计微调某一层时对总损失降低的贡献
- 核心思路:借鉴neural scaling laws的思想,将每层的微调增益建模为该层语义偏差的函数。推导得到各层增益 \(G_l\) 与偏差 \(d_l\) 之间的关系:
\(G_l \propto f(d_l, \theta_l)\)
其中 \(\theta_l\) 为层参数。通过这个公式,可以在不实际执行微调的情况下,预估每层的微调收益,从而选择收益最高的层进行微调 - 设计动机:避免了暴力搜索所有可能的层冻结组合(\(2^L\) 种),将搜索成本降低到一次前向传递 + 公式计算
-
成本-收益平衡与层选择:
- 功能:在微调效果和计算成本之间找到最优平衡点
- 核心思路:按各层的预估增益 \(G_l\) 排序,从高到低选择层进行微调,直到边际增益低于阈值。这自然形成了一个自适应的层选择策略——不同任务、不同模型可能需要微调不同数量和位置的层
- 设计动机:固定冻结前N层的策略过于粗糙,本方法允许跳跃式选择(如冻结第5层但微调第4和第6层),更加灵活
与PEFT的正交性¶
关键insight:本方法解决的是"在哪些层微调",而PEFT解决的是"在选定层中如何微调"。两者可以组合使用——先用本方法确定需要微调的层,再在这些层上应用LoRA等PEFT方法,实现双重效率提升。
实验关键数据¶
主实验¶
| 方法 | 数据集 | 性能 | 训练FLOPs | 说明 |
|---|---|---|---|---|
| Full Fine-tuning | 多个NLU/NLG | 基准性能 | 100% | 全参数微调 |
| 前N层冻结 | 多个NLU/NLG | 轻微下降 | ~50-70% | 简单启发式 |
| 本文方法 | 多个NLU/NLG | 持平或超越全微调 | ~40-60% | 语义感知选择 |
| LoRA (全层) | 多个NLU/NLG | 接近全微调 | ~30% 参数 | 参数高效但全层反传 |
| 本文 + LoRA | 多个NLU/NLG | 接近全微调 | 双重节省 | 正交组合 |
消融实验¶
| 配置 | 性能变化 | 计算节省 | 说明 |
|---|---|---|---|
| 仅冻结低偏差层 | 几乎无损 | ~30-40% | 验证了偏差度量的有效性 |
| 仅冻结高偏差层 | 显著下降 | - | 反面验证:高偏差层确实重要 |
| 随机冻结同等数量的层 | 不稳定,平均下降 | 相同 | 证明语义感知选择优于随机选择 |
| 不同缩放律参数 | 鲁棒 | - | 方法对超参数不敏感 |
关键发现¶
- 高偏差层集中在中间和后期层,与直觉一致——这些层更多编码任务相关的语义信息
- 在节省40-60%的反向传播计算量的同时,性能基本无损甚至有小幅提升
- 与LoRA组合可以进一步降低计算开销,证实了正交性
- 不同模型和任务的最优冻结策略不同,说明自适应选择的必要性
- 层的微调增益与简单的层深度不完全一致——并非总是越深的层越需要微调
亮点与洞察¶
- 填补研究空白:开创性地将"where to finetune"作为独立研究问题,与PEFT的"how to finetune"形成互补
- 理论与实践结合:不是纯粹的经验性层选择,而是通过语义分析和缩放律推导提供了理论支撑
- 即插即用:作为正交方法,可以与现有任何微调策略(全微调、LoRA、Adapter等)组合使用
- 实用性强:层选择只需一次前向传递,额外开销极小
局限与展望¶
- 缩放律公式中可能包含需要在验证集上拟合的超参数,这增加了方法的复杂度
- 层偏差的计算基于前向传递的快照,可能无法完全反映微调过程中层重要性的动态变化
- 对于极端场景(如跨领域迁移、多任务学习),语义偏差的预估准确性有待验证
- 实验未覆盖超大规模模型(如70B+),在这些模型上层冻结的收益可能更加显著
相关工作与启发¶
- vs LoRA (Hu et al., 2022): LoRA关注参数维度的效率(低秩分解),本方法关注层维度的效率(选择性反传),两者正交互补
- vs FreezeOut (Brock et al., 2017): FreezeOut按训练阶段渐进冻结层,缺乏任务适应性;本方法基于语义分析选择层,更加数据驱动
- vs Layer-Drop (Fan et al., 2020): Layer-Drop在推理时随机丢弃层以加速推理,本方法在训练时冻结层以加速训练,目标不同
- vs SmartFRZ (Llona et al., 2023): SmartFRZ 基于梯度信息决定冻结层,需要额外的训练开销;本方法仅需前向传递
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统性地从语义分析角度回答"where to finetune",开辟了新的研究方向
- 实验充分度: ⭐⭐⭐⭐ 跨多个模型和数据集验证,有消融实验,但缺少超大模型实验
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法推导合理,但部分理论推导可能不够直觉友好
- 价值: ⭐⭐⭐⭐⭐ 实用价值极高,与PEFT正交的特性使其有广泛的应用前景
相关论文¶
- [ACL 2025] Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models
- [ACL 2025] Efficient Ensemble for Fine-tuning Language Models on Multiple Datasets
- [ACL 2025] HFT: Half Fine-Tuning for Large Language Models
- [ACL 2025] Quantifying Semantic Emergence in Language Models
- [ACL 2025] PiFi: Plug-in and Fine-tuning: Bridging the Gap between Small Language Models and Large Language Models