SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs¶

会议: ICLR2026 arXiv: 2509.20758 代码: 未开源领域: model_compression 关键词: SFT, 领域微调, 通用能力退化, 学习率, token自适应重加权, 持续学习, LLM

一句话总结¶

本文系统性地重新审视了领域特定SFT对LLM通用能力的影响，发现使用较小学习率即可大幅缓解通用能力退化，并提出Token-Adaptive Loss Reweighting (TALR)方法通过自适应下调低概率token的损失权重进一步优化领域适配与通用能力之间的权衡。

背景与动机¶

领域SFT是标准范式：大语言模型在通用任务上表现优异，但在医疗、电商等专业领域仍需通过SFT注入领域知识以提升性能。
通用能力退化被广泛报道：多项研究指出在领域数据上SFT会严重损害数学推理、代码生成、指令遵循等通用能力，引发对SFT实用性的质疑。
先前研究使用的学习率偏大：已有工作多采用5e-6或2e-5等较大学习率，可能是退化现象被夸大的一个原因。
data-oblivious设定更实际：实际场景中通常无法获取预训练数据，因此不依赖原始数据的缓解策略更具价值。
token层面分析缺失：此前研究主要在样本或基准层面分析退化，缺少对训练数据中单个token学习难度的精细理解。
缺乏理论支撑：对于学习率为何影响通用能力退化程度，尚缺从信息论角度的形式化分析。

方法详解¶

核心发现：小学习率即可实现良好权衡¶

作者在MedCalc（医疗计算）和ESCI（电商分类）两个数据集上系统实验，发现：

Finding 1：使用较小学习率（如1e-6）可显著减少通用能力退化，同时领域性能与大学习率相当。这与传统深度学习中"大学习率带来更好下游性能"的经验截然不同。
Finding 2：当训练目标仅包含标签（无CoT推理链）时，能达到Pareto最优的学习率范围更宽，5e-6也能表现良好。

信息论视角的理论分析¶

将LLM视为数据压缩器，利用token tree和算术编码框架，导出：

Proposition 3.1：模型从θ₁到θ₂的预期编码长度变化等于KL散度之差，可量化通用能力变化。
Theorem 3.1：较小的分布更新步长λ（对应小学习率）可降低通用性能退化的上界。
Theorem 3.2：hard token数量减少时，安全步长范围扩大——解释了label-only训练容忍更大学习率的现象。

TALR：Token-Adaptive Loss Reweighting¶

理论分析指出hard token（低概率token）的梯度贡献是通用能力退化的主要驱动力，由此提出TALR：

约束优化问题：在单纯形上最小化加权损失+熵正则，得到闭式解 \(w_i^* \propto p_\theta(x_i)^{1/\tau}\)
自适应权重：高概率（简单）token获得更大权重，低概率（hard）token被下调
动态τ参数：τ设为batch内token损失的中位数，随训练自动衰减
课程学习效应：训练初期聚焦简单token，随模型进步逐渐纳入原先的hard token
stop-gradient：权重计算不参与反向传播，保证优化稳定性

实验关键数据¶

表1：MedCalc基准学习率1e-6下的领域/通用性能对比¶

方法	Qwen2.5-3B 领域	Qwen2.5-3B 通用	Qwen3-4B 领域	Qwen3-4B 通用	平均领域	平均通用
Standard (Ours)	0.495	0.620	0.548	0.784	0.534	0.692
L2-Reg	0.490	0.621	0.469	0.796	0.506	0.697
LoRA	0.126	0.583	0.195	0.764	0.181	0.490
Wise-FT	0.195	0.629	0.143	0.788	0.198	0.727
FLOW	0.364	0.597	0.477	0.787	0.469	0.692
TALR (Ours)	0.481	0.648	0.489	0.788	0.501	0.717

小学习率下各方法差距不大，TALR在通用能力保持上最优。

表2：MedCalc基准学习率5e-6下的领域/通用性能对比¶

方法	平均领域	平均通用
Standard	0.558	0.381
L2-Reg	0.555	0.395
FLOW	0.553	0.450
TALR (Ours)	0.542	0.502

大学习率下通用能力退化加剧，TALR优势最为显著——通用性能比Standard高出12个百分点。

Token层面分析¶

绝大多数SFT训练token对LLM而言学习难度低（中位概率接近1.0），即使模型在该领域任务上zero-shot性能很差。
少量hard token主要出现在领域特有概念处（如临床换算因子），是性能瓶颈所在。
TALR训练过程中p>0.2的token占比从Epoch 1到Epoch 2稳步增长，呈现课程学习动态。

亮点¶

挑战主流认知：系统证明SFT并非总是显著损害通用能力，先前文献的夸大结论部分源于学习率选择不当。
理论与实践统一：信息论分析不仅解释了经验现象，还直接指导了TALR方法的设计。
TALR设计优雅：闭式解、无额外超参搜索（τ自适应）、stop-gradient保证稳定，实现简洁。
实用指南清晰：(1) 优先使用小学习率；(2) 需更强平衡时采用TALR。

局限性 / 可改进方向¶

未完全消除退化：包括TALR在内的所有方法均无法在大学习率下完全避免通用能力退化。
数据集有限：仅在MedCalc和ESCI两个数据集上验证，未涵盖更多领域。
模型规模受限：实验仅涉及3B-4B参数模型，未验证对更大模型或MoE架构的适用性。
最优学习率选择：理论分析未给出如何自动选择最优学习率的实用准则。
计算资源限制：作者承认因资源不足未能进行更大范围的实验验证。

与相关工作的对比¶

方法类别	代表工作	与本文关系
L2正则化	EWC, L2-Reg	约束参数漂移，但效果有限
模型平均	Wise-FT	领域性能大幅下降，不适合领域差距大的场景
LoRA	Hu et al. 2022	低秩约束导致领域性能严重不足
数据重加权	FLOW	基于样本级易难区分，本文提出更精细的token级方案
持续学习	data-dependent方法	需要预训练数据，实际场景不可行

TALR在data-oblivious设定下实现了最佳的Pareto权衡。

评分¶

新颖性: ⭐⭐⭐⭐ — 重新审视被忽视的学习率因素+信息论分析+token级自适应重加权
实验充分度: ⭐⭐⭐ — 多模型多设定验证充分，但数据集种类偏少
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，理论与实验紧密衔接
价值: ⭐⭐⭐⭐ — 对LLM领域微调实践具有直接指导意义