STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning¶
会议: ACL 2025
arXiv: 2409.06211
代码: https://github.com/thnkinbtfly/STUN
领域: Model Compression
关键词: MoE剪枝, 结构化剪枝, 非结构化剪枝, 专家剪枝, 模型压缩
一句话总结¶
STUN 提出了结构化→非结构化的两阶段 MoE 剪枝方法,第一阶段用 O(1) 前向传播实现可扩展的专家级剪枝,第二阶段在剩余专家内做非结构化剪枝,在 480B 参数的 Snowflake Arctic 上以 40% 稀疏度几乎无性能损失。
研究背景与动机¶
- 领域现状:MoE 通过稀疏激活减少推理成本,但参数总量巨大(Mixtral 56B、DBRX 132B、Arctic 480B)仍需大量 GPU 内存
- 现有痛点:
- 非结构化剪枝无法利用 MoE 天然的专家结构
- 结构化剪枝(行/列级)破坏模型能力较大
- 现有专家剪枝方法需要 \(O(k^n/\sqrt{n})\) 次前向传播穷举组合,不适用于 128+ 专家的大规模 MoE
- 核心矛盾:专家级剪枝效果好但搜索空间指数增长,非结构化剪枝可扩展但效果差
- 本文要解决什么:找到结构化和非结构化之间的最优插值,同时保证可扩展性
- 切入角度:先用 O(1) 的方法做专家级结构化剪枝,再在剩余专家内做非结构化剪枝
- 核心idea一句话:利用专家行为相似性做 O(1) 可扩展的专家剪枝,再叠加非结构化剪枝
方法详解¶
整体框架¶
MoE 模型 → 第一阶段:基于行为相似性的专家级结构化剪枝(O(1) 前向传播)→ 第二阶段:在剩余专家内做非结构化权重剪枝(如 Wanda/SparseGPT)→ 最终压缩模型。
关键设计¶
- O(1) 可扩展专家剪枝:
- 做什么:只需一次前向传播就能确定哪些专家可以剪掉
- 核心思路:利用专家之间的行为相似性(基于激活频率和输出相似度)构建潜在结构,使得贪心逐个剪除决策能近似捕获联合剪枝效果
-
设计动机:现有方法需要穷举专家组合,128 个专家时根本不可行
-
两阶段插值 (Structured-Then-Unstructured):
- 做什么:在专家剪枝后继续做细粒度权重剪枝
- 核心思路:专家剪枝后的 MoE 对非结构化剪枝更鲁棒——因为冗余专家已被去除,剩余专家的重要性更均匀
- 实验验证:纯结构化或纯非结构化都不如两者组合(图1中峰值在中间)
损失函数 / 训练策略¶
剪枝后无需微调(training-free)。整个过程在单张 H100 上两小时完成。
实验关键数据¶
主实验¶
| 模型 | 方法 | 稀疏度 | GSM8K | 说明 |
|---|---|---|---|---|
| Snowflake Arctic (480B) | STUN | 40% | 几乎不降 | 单卡H100, 2小时 |
| Mixtral-8x7B | 纯非结构化 | 50% | 大幅下降 | 现有方法失败 |
| Mixtral-8x7B | 纯结构化 | 50% | 大幅下降 | 现有方法失败 |
| Mixtral-8x7B | STUN | 50% | 最佳 | 插值点最优 |
关键发现¶
- 结构化和非结构化的最优插值显著优于两端(图1峰值在中间)
- O(1) 专家剪枝在 128 专家的 Arctic 上可行,而穷举方法不可能
- STUN 在生成任务(GSM8K)上表现尤其好——这是对抗剪枝的最难场景
- 40% 稀疏度几乎无损说明大型 MoE 确实存在大量冗余专家
亮点与洞察¶
- O(1) 可扩展专家剪枝解决了 MoE 剪枝的关键瓶颈——未来 MoE 专家数会继续增长
- "先结构化后非结构化"的两阶段范式可以推广到其他混合剪枝场景
- 在 480B Arctic 上单 H100 两小时完成剪枝,实用性极高
局限性 / 可改进方向¶
- 目前只在 MoE 上验证,dense 模型不适用
- 专家相似性度量可能对某些任务不够精确
- 40% 以上稀疏度的性能退化情况未详细分析
相关工作与启发¶
- vs Wanda/SparseGPT: 纯非结构化方法,STUN 在 MoE 上叠加结构化后效果更好
- vs MC-SMoE: 需要穷举专家组合,STUN 的 O(1) 方法更可扩展
- vs LLM Surgeon: 通用剪枝方法,STUN 专门利用 MoE 结构
评分¶
- 新颖性: ⭐⭐⭐⭐ 两阶段插值思路简洁有效,O(1)专家剪枝的可扩展性是关键贡献
- 实验充分度: ⭐⭐⭐⭐ 480B Arctic + Mixtral + 多种对比
- 写作质量: ⭐⭐⭐⭐ 动机图(图1)直观地展示了插值优势
- 价值: ⭐⭐⭐⭐⭐ 对大规模MoE部署有直接实用价值