跳转至

A Semantic-Aware Layer-Freezing Approach to Computation-Efficient Fine-Tuning of Language Models

会议: ACL 2025
arXiv: 2406.11753
代码: 无
领域: LLM微调效率
关键词: 层冻结, 微调效率, 语义偏差, 缩放律, 反向传播优化

一句话总结

通过分析LLM推理过程中潜在表征的转移轨迹(transition traces)计算各层语义偏差,结合推导的缩放律公式估计各层对降低损失的贡献,从而确定"在哪些层微调",实现与PEFT正交的高效微调方法。

研究背景与动机

微调是将预训练语言模型适配到下游任务的关键步骤,但全参数微调的计算开销巨大。现有工作主要关注"如何微调"——例如LoRA、Adapter等参数高效微调(PEFT)方法通过减少可训练参数量来降低成本。然而,一个被忽视的正交问题是"在哪些层微调"——即使使用PEFT,如果在所有层上都进行微调,反向传播的计算开销仍然很高。

核心矛盾:不同层对下游任务的贡献是不均匀的。早期层通常编码通用的语言特征(语法、词法),而后期层更多编码任务相关的语义信息。盲目对所有层进行微调不仅浪费计算资源,还可能因为过度修改已有的通用表征而损害泛化能力。

现有痛点:层冻结(layer freezing)并不是新idea,但之前的方法要么采用简单的启发式(如冻结前N层),要么需要昂贵的搜索来确定最优冻结策略。缺乏一个基于理论的框架来自动确定哪些层值得微调。

本文的切入角度是:通过语义分析LLM的推理过程,利用潜在表征在各层之间的转移轨迹来量化每层的"语义偏差",然后通过缩放律估计各层的微调收益,从而以最小的搜索成本确定最优的微调层范围。

方法详解

整体框架

给定预训练模型和下游任务数据,方法分为三步:(1) 在下游数据上做一次前向传递,收集每层的潜在表征转移轨迹(transition traces),(2) 计算每层的语义偏差(deviation),(3) 使用推导的缩放律公式估计各层微调对降低总损失的增益,确定最优微调层集合,最后只在选定层上执行反向传播。

关键设计

  1. 转移轨迹(Transition Traces)与语义偏差:

    • 功能:量化输入经过每层Transformer后的表征变化程度
    • 核心思路:对于第 \(l\) 层,定义转移轨迹为输入和输出隐藏状态的差异。设 \(\mathbf{h}_l\) 为第 \(l\) 层输出,则第 \(l\) 层的语义偏差定义为:

    \(d_l = \|\mathbf{h}_l - \mathbf{h}_{l-1}\|\)

    这个偏差度量了该层对表征的"改动量"。在下游任务数据上,如果某层的平均偏差很大,说明该层的当前参数与下游任务需要的表征之间存在较大的"语义落差"——即该层有更大的微调需求 - 设计动机:直觉上,如果一层几乎不改变表征(低偏差),那么微调它的收益很小;反之,高偏差的层有更大的优化空间

  2. 基于缩放律的层增益估计:

    • 功能:推导一个公式来估计微调某一层时对总损失降低的贡献
    • 核心思路:借鉴neural scaling laws的思想,将每层的微调增益建模为该层语义偏差的函数。推导得到各层增益 \(G_l\) 与偏差 \(d_l\) 之间的关系:

    \(G_l \propto f(d_l, \theta_l)\)

    其中 \(\theta_l\) 为层参数。通过这个公式,可以在不实际执行微调的情况下,预估每层的微调收益,从而选择收益最高的层进行微调 - 设计动机:避免了暴力搜索所有可能的层冻结组合(\(2^L\) 种),将搜索成本降低到一次前向传递 + 公式计算

  3. 成本-收益平衡与层选择:

    • 功能:在微调效果和计算成本之间找到最优平衡点
    • 核心思路:按各层的预估增益 \(G_l\) 排序,从高到低选择层进行微调,直到边际增益低于阈值。这自然形成了一个自适应的层选择策略——不同任务、不同模型可能需要微调不同数量和位置的层
    • 设计动机:固定冻结前N层的策略过于粗糙,本方法允许跳跃式选择(如冻结第5层但微调第4和第6层),更加灵活

与PEFT的正交性

关键insight:本方法解决的是"在哪些层微调",而PEFT解决的是"在选定层中如何微调"。两者可以组合使用——先用本方法确定需要微调的层,再在这些层上应用LoRA等PEFT方法,实现双重效率提升。

实验关键数据

主实验

方法 数据集 性能 训练FLOPs 说明
Full Fine-tuning 多个NLU/NLG 基准性能 100% 全参数微调
前N层冻结 多个NLU/NLG 轻微下降 ~50-70% 简单启发式
本文方法 多个NLU/NLG 持平或超越全微调 ~40-60% 语义感知选择
LoRA (全层) 多个NLU/NLG 接近全微调 ~30% 参数 参数高效但全层反传
本文 + LoRA 多个NLU/NLG 接近全微调 双重节省 正交组合

消融实验

配置 性能变化 计算节省 说明
仅冻结低偏差层 几乎无损 ~30-40% 验证了偏差度量的有效性
仅冻结高偏差层 显著下降 - 反面验证:高偏差层确实重要
随机冻结同等数量的层 不稳定,平均下降 相同 证明语义感知选择优于随机选择
不同缩放律参数 鲁棒 - 方法对超参数不敏感

关键发现

  • 高偏差层集中在中间和后期层,与直觉一致——这些层更多编码任务相关的语义信息
  • 在节省40-60%的反向传播计算量的同时,性能基本无损甚至有小幅提升
  • 与LoRA组合可以进一步降低计算开销,证实了正交性
  • 不同模型和任务的最优冻结策略不同,说明自适应选择的必要性
  • 层的微调增益与简单的层深度不完全一致——并非总是越深的层越需要微调

亮点与洞察

  • 填补研究空白:开创性地将"where to finetune"作为独立研究问题,与PEFT的"how to finetune"形成互补
  • 理论与实践结合:不是纯粹的经验性层选择,而是通过语义分析和缩放律推导提供了理论支撑
  • 即插即用:作为正交方法,可以与现有任何微调策略(全微调、LoRA、Adapter等)组合使用
  • 实用性强:层选择只需一次前向传递,额外开销极小

局限与展望

  • 缩放律公式中可能包含需要在验证集上拟合的超参数,这增加了方法的复杂度
  • 层偏差的计算基于前向传递的快照,可能无法完全反映微调过程中层重要性的动态变化
  • 对于极端场景(如跨领域迁移、多任务学习),语义偏差的预估准确性有待验证
  • 实验未覆盖超大规模模型(如70B+),在这些模型上层冻结的收益可能更加显著

相关工作与启发

  • vs LoRA (Hu et al., 2022): LoRA关注参数维度的效率(低秩分解),本方法关注层维度的效率(选择性反传),两者正交互补
  • vs FreezeOut (Brock et al., 2017): FreezeOut按训练阶段渐进冻结层,缺乏任务适应性;本方法基于语义分析选择层,更加数据驱动
  • vs Layer-Drop (Fan et al., 2020): Layer-Drop在推理时随机丢弃层以加速推理,本方法在训练时冻结层以加速训练,目标不同
  • vs SmartFRZ (Llona et al., 2023): SmartFRZ 基于梯度信息决定冻结层,需要额外的训练开销;本方法仅需前向传递

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性地从语义分析角度回答"where to finetune",开辟了新的研究方向
  • 实验充分度: ⭐⭐⭐⭐ 跨多个模型和数据集验证,有消融实验,但缺少超大模型实验
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法推导合理,但部分理论推导可能不够直觉友好
  • 价值: ⭐⭐⭐⭐⭐ 实用价值极高,与PEFT正交的特性使其有广泛的应用前景

相关论文