LaRoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation¶

会议: ICML 2025
arXiv: 2507.01299
领域: 人体理解

一句话总结¶

LaRoSA 提出了一种无需训练的激活稀疏化方法，通过逐层正交旋转矩阵将输入激活变换到更适合稀疏化的空间，并结合 Top-K 选择实现一致的模型级稀疏度和可靠的推理加速。

研究背景与动机¶

大语言模型的高效推理是当前的重要研究方向。利用激活稀疏性可以跳过零值激活对应的权重通道，从而减少内存传输和计算开销。然而，现有方法存在两个主要限制：

基于 ReLU 的方法（如 DejaVu）需要大量恢复训练，且现代 LLM（如 LLaMA3、Qwen2.5）使用 SwiGLU 等非 ReLU 激活函数，不会自然产生稀疏性

基于幅度剪枝的方法（如 CATS、TEAL）使用离线校准阈值，存在三大问题： - 阈值定义的模糊性和不准确性：校准阈值很难与实际需要的阈值对齐 - 无法维持一致的稀疏度：实际稀疏度显著偏离目标值 - 幅度与通道重要性的错误假设：低幅度激活若对应高范数权重通道，仍会显著影响输出

方法详解¶

核心思想¶

LaRoSA 的关键洞察是：通过正交旋转变换，可以将激活向量变换到一个通道重要性更容易区分的空间中，从而实现更有效的稀疏化。

逐层正交旋转¶

对每一层 \(l\)，LaRoSA 使用 PCA 构造正交旋转矩阵 \(\mathbf{Q}_l\)。具体步骤：

选择校准数据集（\(M\) 个序列），前向传播得到每层输入激活 \(\mathbf{X}_l^i\)
计算协方差矩阵并求平均：

\[\text{Cov}(\mathbf{X}_l, \mathbf{X}_l^T) = \frac{1}{M}\sum_{i=0}^{M}\mathbf{X}_l^i(\mathbf{X}_l^i)^T\]

对协方差矩阵做特征分解，按特征值降序排列特征向量构成 \(\mathbf{Q}_l\)

残差适配器¶

由于残差连接要求每层使用相同旋转矩阵，但不同层的最优旋转差异很大。LaRoSA 引入残差适配器 \(\mathbf{Q}_l^T\mathbf{Q}_{l+1}\) 来实现逐层独立旋转。第一层和最后一层的旋转矩阵可以分别合并到 token embedding 和 LM head 层中。

一致的激活稀疏度¶

LaRoSA 用 Top-K 函数替代幅度剪枝，在旋转后的激活上进行稀疏化：

\[S_k(\tilde{x}_i) = \begin{cases} \tilde{x}_i, & \text{if } |\tilde{x}_i| \in \text{Top}_k(|\tilde{x}_i|) \\ 0, & \text{otherwise} \end{cases}\]

其中 \(k = \alpha \cdot (1-p) \cdot D_{\text{in}}\)，\(p\) 是目标稀疏度，\(\alpha\) 是控制同一 block 内 \(h_1\) 和 \(h_2\) 稀疏系数的超参数。

权重吸收¶

旋转矩阵 \(\mathbf{Q}_l\) 可以预先与权重矩阵合并，避免推理时的额外计算：

\[\mathbf{Y}_l = S_k(\mathbf{X}_l\mathbf{Q}_l) \cdot (\mathbf{W}_l\mathbf{Q}_l)^T\]

硬件高效的自定义内核¶

基于 Triton 实现了 GEMV 内核：采用列主序存储权重、融合 Top-K 到矩阵向量乘法中、选择性加载稀疏激活和对应权重列。

实验¶

主实验 - 零样本任务准确率¶

方法	LLaMA2-7B Acc7	LLaMA3-8B Acc7	Qwen2.5-7B Acc7
Dense	66.69	70.05	70.34
CATS 40%	49.55	55.11	61.83
TEAL 40%	64.92	68.14	68.61
LaRoSA 40%	66.15	68.79	69.67
TEAL 50%	63.22	64.92	67.76
LaRoSA 50%	64.61	67.19	69.09

困惑度结果¶

在 LLaMA2-7B 上 40% 稀疏度下，LaRoSA 仅有 0.17 的困惑度差距（5.64 vs 5.47），而 TEAL 为 0.93，CATS 高达 39.99。

推理加速¶

LaRoSA 在 A100 上以 50% 稀疏度实现 1.38× 加速，75% 稀疏度实现 1.72× 加速。由于使用 Top-K 保证一致稀疏度，加速效果稳定可预测。

推理模型实验¶

在 DeepSeek-R1-Distill-Llama3-8B 上，LaRoSA 25% 稀疏度在 MATH-500 上仅下降 2.6 分（85.0 vs 87.6），AIME-2024 保持不变（40.0）。

亮点¶

无需训练：仅需 12 分钟校准即可用于 70B 模型，实际部署非常友好
一致的稀疏度：Top-K 保证每个 token 的稀疏度恒定，解决了幅度剪枝的不稳定问题
理论支撑：附录提供了旋转在减少逐层经验误差方面优于幅度剪枝的理论分析
跨模型鲁棒性：在 LLaMA2/3、Qwen2.5、Mistral 的 7B 和 70B 模型上均表现出色
兼容推理模型：在 DeepSeek-R1 蒸馏模型上验证了对推理能力的保持

局限性¶

仅旋转 \(h_1\) 和 \(h_3\) 的输入激活，\(h_2\) 和 \(h_4\) 由于 GQA 和元素乘法的约束无法旋转
残差适配器引入了少量额外计算
超参数 \(\alpha\) 需要通过网格搜索针对每个模型调优
Top-K 操作本身有一定开销，需要自定义 GPU 内核才能带来实际加速
在极高稀疏度（60%+）下性能下降仍较明显

评分¶

⭐⭐⭐⭐ (4/5)

LaRoSA 方法优雅且实用，通过正交旋转巧妙解决了非 ReLU LLM 的激活稀疏化问题。无需训练的特性使其非常适合实际部署，实验充分覆盖了多种模型和任务。