Liger: Linearizing Large Language Models to Gated Recurrent Structures¶
会议: ICML2025
arXiv: 2503.01496
代码: OpenSparseLLMs/Linearization
领域: LLM线性化 / 高效推理
关键词: LLM线性化, 门控线性循环, 线性注意力, LoRA, 滑动窗口注意力
一句话总结¶
Liger 将预训练 Transformer LLM 无额外参数地转换为门控线性循环结构,利用 Key 投影矩阵复用构建门控机制,仅需 0.02% 预训练 token 即可恢复原模型 93% 的性能,同时获得线性时间推理和恒定显存开销。
研究背景与动机¶
Transformer 的 softmax 注意力在序列长度上具有 \(O(T^2)\) 复杂度,KV Cache 随序列长度线性增长,严重制约长序列推理的速度和显存。线性循环模型(Linear Attention、GLA、Mamba 等)提供 \(O(T)\) 训练和 \(O(1)\) 推理显存,但从零预训练代价高昂。
线性化(Linearization) 是一个新兴方向:将已预训练的 Transformer 权重迁移到线性循环架构,以极低成本获得高效模型。然而现有方法存在两个核心问题:
架构开销:SUPRA、LoLCATs 等需要引入额外的特征映射或门控模块,这些模块无法复用预训练权重,必须从零训练
优化脆弱性:LoLCATs 采用两阶段训练(先注意力迁移、再 LoRA 微调),流程复杂且无法端到端优化
此外,现有线性化方法忽略了 SOTA 线性循环模型中的门控机制(gating mechanism),而门控对于控制记忆保留/遗忘、提升序列建模表达力至关重要。
方法详解¶
核心思想:Key 投影复用构建门控¶
LLM 的参数空间具有结构冗余性。Liger 的核心洞察是:将 Key 投影矩阵 \(\mathbf{W_K}\) 赋予双重角色——既执行原始的线性变换,又通过无参数的 Pooling 操作派生出门控信号:
其中 \(f(\cdot)\) 为 Pooling 操作(如均值池化),无需额外可训练参数。这种参数共享策略确保与预训练权重兼容,同时避免引入辅助门控模块。
统一的门控线性循环框架¶
Liger 将各种门控线性循环结构统一表示为:
其中 \(\mathbf{G}_t\) 通过 Pooling(\(\boldsymbol{k}_t\)) 生成,\(\phi(\cdot)\) 直接使用 Softmax 归一化(而非学习特征映射)。所有参数 \(\mathbf{W_Q}, \mathbf{W_K}, \mathbf{W_V}\) 均继承自预训练 LLM,无需额外模块。
通过不同的门控参数化方式,Liger 可适配多种门控线性循环结构(GLA、Mamba2、mLSTM、HGRN2、RWKV6 等)。
Liger Attention:层内混合注意力¶
Liger 提出将门控循环建模(GRM)和滑动窗口注意力(SWA)在层内加权混合:
其中 \(\alpha + \beta = 1\)(默认各 0.5),SWA 窗口大小 \(w=64\)。GRM 负责全局长程建模,SWA 保留局部 softmax 非线性,总复杂度为 \(O(TWD + TD^2)\),保持线性级别。
Liger 整体架构¶
- 层内混合:每层使用 Liger Attention(GRM + SWA)
- 层间混合:每隔若干层(如 7 层)Liger 块后插入一层标准 softmax 注意力块
- 保留 Pre-Norm、MLP、残差连接等标准组件
- 使用 LoRA(rank=8, alpha=8)对 \(\mathbf{W_Q}, \mathbf{W_K}, \mathbf{W_V}\) 进行端到端微调,仅训练 0.085% 参数
- 训练数据:50K 条清洗后的 Alpaca 指令数据(约 0.02B token),训练 2 个 epoch
实验关键数据¶
线性化方法对比(Llama-3-8B)¶
| 模型 | 训练Token(B) | PiQA | ARC-e | ARC-c | HellaSwag | WinoGrande | MMLU | Avg |
|---|---|---|---|---|---|---|---|---|
| Llama-3-8B (原始) | 15000 | 79.4 | 80.1 | 53.2 | 79.2 | 72.9 | 65.3 | 71.7 |
| SUPRA | 20 | 78.9 | 75.1 | 46.5 | 71.7 | 65.8 | 40.9 | 63.2 |
| LoLCATs (两阶段) | 0.04 | 80.1 | 80.4 | 53.5 | 63.4 | 72.9 | 42.1 | 65.4 |
| Liger-GLA (Ours) | 0.02 | 80.3 | 81.1 | 52.5 | 76.3 | 72.0 | 43.4 | 67.6 |
与预训练线性模型对比¶
| 模型 | 训练Token(B) | Avg (no MMLU) |
|---|---|---|
| Mamba-7B | 1200 | 71.0 |
| RWKV-6-7B | 1420 | 69.4 |
| Griffin-7B | 300 | 71.1 |
| Zamba2-7B (Hybrid) | 2100 | 75.3 |
| Liger-GLA-8B | 0.02 | 72.4 |
Liger 仅用 0.02B token 就超越了从零训练数百B token 的线性模型。
可扩展性分析¶
| 模型规模 | Llama-3 | Liger-GLA | 恢复率 |
|---|---|---|---|
| 1B | 59.9 | 59.0 | 98.5% |
| 3B | 68.1 | 66.5 | 97.7% |
| 8B | 73.0 | 72.4 | 99.2% |
模型越大,性能恢复越好(1B→8B gap 从 4.8% 缩小至 1.8%)。
消融实验¶
| 变体 | PPL↓ | Avg (no MMLU)↑ |
|---|---|---|
| Liger-GLA (完整) | 2.96 | 72.4 |
| 随机初始化Gate | 3.16 | 68.8 |
| 去掉SWA | 3.75 | 60.2 |
| 去掉LoRA | 3.23 | 68.1 |
| 纯线性注意力(无Gate) | 3.00 | 71.5 |
| 额外特征映射模块 | 9.04 | 40.2 |
SWA 贡献最大(去掉后性能下降 12.2 点);引入额外特征映射反而严重损害性能。
亮点与洞察¶
- 零额外参数:利用 Key 投影的 Pooling 构建门控,完全复用预训练权重,是最简洁的线性化方案
- 极低成本:仅需 0.02B token(0.02% 预训练量),单卡 A800 即可完成线性化
- 统一框架:一套方法可适配 GLA、HGRN2、GSA 等多种门控循环结构
- 线性推理:线性化后的模型具有 \(O(T)\) 解码延迟和恒定显存,32K 序列时优势显著
- Liger Attention 的巧妙设计:SWA 保留了局部 softmax 非线性信息,GRM 负责全局建模,二者互补
局限与展望¶
- 虽然 Avg(no MMLU) 恢复到 99%,但 MMLU 恢复率较低(43.4 vs 65.3),知识密集型任务仍有明显差距
- 滑动窗口大小 \(w=64\) 为固定超参数,未探索动态或自适应窗口
- 仅在 Llama-3 和 Mistral 上验证,未涉及更新的架构(如 Qwen、Gemma)
- 训练数据仅用 Alpaca 指令集,数据质量和多样性可能限制恢复上限
- 长上下文任务(如 128K)的实际表现未充分评估
评分¶
- 新颖性: ⭐⭐⭐⭐ — Key投影复用构建门控的思路简洁优雅,避免额外参数
- 实验充分度: ⭐⭐⭐⭐ — 多模型规模、多结构变体、效率分析、消融齐全
- 写作质量: ⭐⭐⭐⭐ — 公式推导清晰,框架图直观
- 价值: ⭐⭐⭐⭐ — 为LLM部署提供低成本线性化路径,实用性强
相关论文¶
- [NeurIPS 2025] Gated Integration of Low-Rank Adaptation for Continual Learning of Large Language Models
- [ICML 2025] Instruction-Following Pruning for Large Language Models
- [ICML 2025] Fleet of Agents: Coordinated Problem Solving with Large Language Models
- [ICML 2025] Random Initialization of Gated Sparse Adapters (RIGSA)
- [ICML 2025] Persistent Topological Features in Large Language Models