Random Initialization of Gated Sparse Adapters (RIGSA)¶

会议: ICML 2025
arXiv: 2511.01794
代码: -
领域: Parameter-Efficient Fine-Tuning / Sparse Adaptation
关键词: sparse fine-tuning, PEFT, lottery ticket hypothesis, catastrophic forgetting, LoRA

一句话总结¶

提出 RIGSA，一种基于随机初始化全秩适配器 + ReZero 门控 + 迭代幅度剪枝的稀疏微调方法，在学习新任务的同时比 QLoRA 更好地保留源任务性能。

研究背景与动机¶

现有痛点¶

现有痛点：微调 LLM 学习新任务时面临灾难性遗忘问题

领域现状¶

领域现状：LoRA 通过低秩约束实现参数高效微调，但低秩限制在复杂任务上表现欠佳

核心矛盾¶

核心矛盾：稀疏微调提供了一种替代方案，不施加秩约束，可能允许更具表达力的适应

解决思路¶

解决思路：彩票假说 (LTH) 表明密集网络中存在稀疏子网络能匹配全网性能

补充说明¶

补充说明：现有稀疏微调方法（如 LT-SFT）将差分矩阵 \(\Delta W\) 初始化为零，无法包含"幸运"初始化

方法详解¶

核心思想¶

学习 \(W = W_0 + \alpha \Delta W\)，其中： - \(W_0\)：冻结的预训练权重 - \(\Delta W\)：随机初始化的全秩差分矩阵 - \(\alpha\)：ReZero 风格的可学习门控参数，初始化为 \(10^{-6}\)

关键设计：\(\alpha\) 近零初始化确保训练从预训练权重 \(W_0\) 出发，而 \(\Delta W\) 的随机初始化允许偏离预训练权重，权重衰减又引导回到该区域。

迭代幅度剪枝 (IMP)¶

训练 \(W_0 + \alpha \Delta W\) 一个 epoch
剪枝：在未改变符号的参数中，保留幅度最大的 80%，其余重置为初始值并冻结
重复 5 次 → 最终稀疏度约 3.46%
用最终稀疏掩码训练得到 winning ticket

与其他方法的区别¶

方法	初始化	秩约束	剪枝策略
LoRA/QLoRA	B 初始化为零	低秩	无
LT-SFT	\(\Delta W = 0\)	无	单次剪枝
RoSA	梯度累积	低秩+稀疏联合	基于梯度
RIGSA	随机 + ReZero 门控	无（全秩→稀疏）	IMP + 符号保留

实验结果¶

目标任务：Textual MNIST¶

将 MNIST 图像转为数字文本矩阵（每像素量化为 0-9），作为纯文本图像分类任务： - SmolLM2-1.7B-Instruct 零样本准确率仅约 10%（随机水平） - 微调后可有效学习

主实验对比¶

方法	Textual MNIST	PIQA	HellaSwag	GSM8k
基线（未微调）	~10%	75.4	51.7	43.7
RIGSA (step 1, dense)	99.05%	-	-	40.7↓
RIGSA (step 3, sparse)	98.37%	~75	~52	45.1↑
QLoRA (rank=16)	99.46%	~75	~51	14.18↓↓
Random Mask	~97%	-	-	~43

关键发现¶

目标任务：QLoRA 略优于 RIGSA（99.46% vs 98.37%）
遗忘：RIGSA 在 GSM8k 上遗忘远少于 QLoRA（下降 ~0 vs 下降 ~6%）
稀疏微调（包括随机掩码）在保留源任务性能方面系统性优于 QLoRA
高秩 QLoRA 反而保留源任务更好——可能因为高秩适应更"自然"

亮点与洞察¶

创新地将 LTH 思想应用于 LLM 适配器，使用 ReZero 门控解决随机初始化的不稳定性
提出 Textual MNIST 作为标准化的 OOD 视觉文本任务
揭示了稀疏微调在减少遗忘方面的系统性优势
方法简洁，不需要复杂的掩码选择策略

Textual MNIST 任务设计¶

论文提出的 Textual MNIST 作为 OOD 评估基准具有独特价值：

将 28×28 灰度图像每个像素量化为 0-9，形成纯文本表示
SmolLM2 零样本/5-shot 准确率均约 10%（随机水平）
任务与预训练数据分布完全不同，清晰度量学习新能力
与 BigBench 的 ASCII art 方法不同，使用单字符数字编码更适合 tokenizer

这种设计有效隔离了迁移学习的影响，是评估适配器学习能力的理想测试平台。

局限与展望¶

仅在 1.7B 参数模型上实验，未验证更大模型
每轮剪枝 80% 过于激进，可能导致次优性能
单一目标任务（Textual MNIST）的验证不够充分
缺乏多次实验的统计显著性分析
与 RoSA 等更强的稀疏微调基线缺乏直接对比
高权重衰减 (1.0) 的选择缺乏理论支撑

评分¶

⭐⭐⭐ — 思路清晰有趣，ReZero 门控+IMP 的组合新颖，但实验规模和深度不足以充分验证方法的优势。