A Layer-wise Analysis of Supervised Fine-Tuning¶

会议: ACL 2026
arXiv: 2604.11838
代码: GitHub
领域: LLM效率
关键词: 监督微调, 逐层分析, 参数高效微调, 灾难性遗忘, LoRA

一句话总结¶

通过信息论、几何和优化三个视角对 1B-32B 模型的 SFT 进行逐层分析，发现指令跟随能力集中在中间层（20%-80%），而非均匀分布，据此提出 Mid-Block Efficient Tuning 策略，选择性更新中间层，在 GSM8K 上比标准 LoRA 提升高达 10.2%。

研究背景与动机¶

领域现状：监督微调（SFT）是将 LLM 对齐到人类意图的基石方法。研究表明仅需约 1000 条精选样本就能将基础模型转化为指令跟随 agent。现有研究已经揭示 SFT 主要是重新校准注意力模式和调整风格化 token 分布，本质上是一种"表面层"适应。

现有痛点：当前参数高效微调方法（如 LoRA）在所有层上均匀应用更新，隐含假设所有层对对齐贡献相同。但这一假设是次优的——不同层可能有完全不同的功能角色。更关键的是，均匀更新可能将参数预算浪费在不敏感的层上，同时导致敏感层更新不充分。

核心矛盾：我们知道 SFT 期间"什么在变"（注意力模式、token 分布），但不知道"哪里在变"——这些变化在模型深度上的分布是怎样的？哪些层对指令跟随能力是关键的？

本文目标：(1) 系统性地揭示 SFT 引起的逐层变化模式；(2) 识别对任务适应最关键的层区间；(3) 基于分析洞察提出更高效的微调策略。

切入角度：综合使用信息论指标（熵、有效秩）、几何指标（CKA、余弦相似度）和优化指标（权重变化量），跨 1B-32B 模型规模进行系统性的层级剖析。

核心 idea：SFT 的有效对齐是"架构局部化"的而非均匀分布的——中间层（20%-80%）是知识整合的稳定基底，顶层是灾难性遗忘的主要源头，因此应集中更新中间层。

方法详解¶

整体框架¶

构建 Base 模型和 SFT 模型的逐层表征分析管道：给定同一架构的 Base 和 SFT 检查点，对同一数据集提取每层的隐状态矩阵，然后分别从优化动力学、信息动力学、几何重构三个角度量化层间差异。

关键设计¶

优化动力学分析（Weight Change）:
- 功能：量化每层参数在 SFT 后的实际变化幅度
- 核心思路：定义 \(\Delta \mathcal{W}^{(l)}\) 为第 \(l\) 层注意力模块所有投影矩阵（Q/K/V/O）在 Base 和 SFT 模型间的 Frobenius 距离。高 \(\Delta \mathcal{W}^{(l)}\) 表示该层经历了激进的参数修改
- 设计动机：直接从参数空间观察 SFT 的"作用力"分布，验证是否存在梯度衰减导致的层间不均匀更新
信息动力学分析（Entropy & Effective Rank）:
- 功能：监测 SFT 对表征空间信息容量的影响
- 核心思路：使用基于矩阵的 \(\alpha\) 阶熵和有效秩来分析 SFT 前后每层的信息密度变化。Prompt 熵量化序列内的 token 级信息密度，Dataset 熵量化样本间的多样性。有效秩衡量表征空间的真实维度
- 设计动机：验证信息瓶颈假说——SFT 是否迫使模型压缩通用预训练特征以适应任务约束
几何重构分析（CKA, Cosine Similarity, Mean Shift）:
- 功能：判断 SFT 是仅旋转表征空间还是从根本上重构了它
- 核心思路：CKA 衡量 Base 和 SFT 模型在每层的全局结构相似性；余弦相似度衡量方向重定向；均值偏移衡量表征是否被物理传输到向量空间的新区域
- 设计动机：将参数空间的变化（优化动力学）与表征空间的变化（几何重构）关联起来，建立因果链

验证实验设计¶

论文通过三个互补的验证实验建立因果关系：(1) 逐层探针：在每个中间层的输出上直接预测下一个 token，观察任务能力的"休眠→涌现"模式；(2) 逐层权重变化：追踪 LoRA 微调后每层的 L2 更新幅度；(3) 逐层交换：将 Base 模型的特定层块替换为 SFT 对应层（反之亦然），观察性能变化。

实验关键数据¶

主实验（Mid-Block Efficient Tuning vs Standard LoRA, GSM8K Accuracy）¶

模型	Standard LoRA	Mid-Block (最优)	提升
OLMo2-1B	0.19	0.21 (01100)	+10.5%
OLMo2-7B	0.28	0.375 (01000)	+33.9%
OLMo2-13B	0.27	0.30 (01110)	+11.1%
OLMo2-32B	0.29	0.32 (01100)	+10.3%

消融实验（层段选择，OLMo2-7B, GSM8K）¶

层段配置	Accuracy	说明
10000 (底层20%)	~0.22	最差，远低于基线
01000 (中上层)	0.375	最优，超基线 10pp
00010 (中下层)	~0.27	接近基线
00001 (顶层20%)	~0.135	极差，仅映射层无法独立工作
11111 (全层)	0.28	标准 LoRA 基线

关键发现¶

深度依赖模式在所有模型规模（1B-32B）上一致：CKA 在浅层稳定（>0.98），在最后约 20% 层急剧下降
逐层探针呈现"休眠→涌现"模式：OLMo2-32B 中前 50 层准确率近零，最后 14 层急剧上升到 0.60
权重变化呈 J 形轨迹：早期层变化极小（~0.05），越接近输出层变化越大（>0.10）
最优中间层 vs 最差边缘层的性能差距经常超过 20%，证实了层选择的关键性
层交换实验呈倒 U 型：替换边缘层导致性能下降，替换中间层可轻微提升

亮点与洞察¶

三视角分析的互补性是本文方法论上的亮点：信息论视角看"信息量变了多少"，几何视角看"空间结构变了多少"，优化视角看"参数变了多少"，三者互相验证形成完整证据链
"中间层是知识整合的稳定基底，顶层是灾难性遗忘的主要源头"这一发现具有广泛的实践意义——可以指导 LoRA 的层选择策略、冻结策略、以及多任务微调时的层分配
Mid-Block 策略以更少参数获得更好性能，说明"精准投放"比"广撒网"更有效，这对参数高效微调领域有启发

局限与展望¶

仅在标准 dense decoder-only 架构上验证，未扩展到 MoE 或 encoder-decoder 架构
仅聚焦于 SFT 阶段，未考察 RLHF/DPO 后的层级动力学变化
Mid-Block 的 20%-80% 范围是经验性选择，缺乏自适应的层边界确定方法
评测任务以数学推理（GSM8K）为主，在其他任务类型上的泛化性有待验证
可以探索结合 AdaLoRA 等自适应方法，让模型自动学习每层的最优 rank 分配

评分¶

新颖性: ⭐⭐⭐⭐ 分析视角全面，但核心发现（顶层变化大）在直觉上不意外
实验充分度: ⭐⭐⭐⭐ 跨 1B-32B 多模型验证，但下游评测任务偏少
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，但公式偏多
价值: ⭐⭐⭐⭐ 对 PEFT 实践者有直接指导意义，Mid-Block 策略简单有效