跳转至

📚 AI Paper Notes

STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning

STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning¶

会议: ACL 2025
arXiv: 2409.06211
代码: https://github.com/thnkinbtfly/STUN
领域: Model Compression
关键词: MoE剪枝, 结构化剪枝, 非结构化剪枝, 专家剪枝, 模型压缩

一句话总结¶

STUN 提出了结构化→非结构化的两阶段 MoE 剪枝方法，第一阶段用 O(1) 前向传播实现可扩展的专家级剪枝，第二阶段在剩余专家内做非结构化剪枝，在 480B 参数的 Snowflake Arctic 上以 40% 稀疏度几乎无性能损失。

研究背景与动机¶

领域现状：MoE 通过稀疏激活减少推理成本，但参数总量巨大（Mixtral 56B、DBRX 132B、Arctic 480B）仍需大量 GPU 内存
现有痛点：
非结构化剪枝无法利用 MoE 天然的专家结构
结构化剪枝（行/列级）破坏模型能力较大
现有专家剪枝方法需要 \(O(k^n/\sqrt{n})\) 次前向传播穷举组合，不适用于 128+ 专家的大规模 MoE
核心矛盾：专家级剪枝效果好但搜索空间指数增长，非结构化剪枝可扩展但效果差
本文要解决什么：找到结构化和非结构化之间的最优插值，同时保证可扩展性
切入角度：先用 O(1) 的方法做专家级结构化剪枝，再在剩余专家内做非结构化剪枝
核心idea一句话：利用专家行为相似性做 O(1) 可扩展的专家剪枝，再叠加非结构化剪枝

方法详解¶

整体框架¶

MoE 模型 → 第一阶段：基于行为相似性的专家级结构化剪枝（O(1) 前向传播）→ 第二阶段：在剩余专家内做非结构化权重剪枝（如 Wanda/SparseGPT）→ 最终压缩模型。

关键设计¶

O(1) 可扩展专家剪枝:
做什么：只需一次前向传播就能确定哪些专家可以剪掉
核心思路：利用专家之间的行为相似性（基于激活频率和输出相似度）构建潜在结构，使得贪心逐个剪除决策能近似捕获联合剪枝效果
设计动机：现有方法需要穷举专家组合，128 个专家时根本不可行
两阶段插值 (Structured-Then-Unstructured):
做什么：在专家剪枝后继续做细粒度权重剪枝
核心思路：专家剪枝后的 MoE 对非结构化剪枝更鲁棒——因为冗余专家已被去除，剩余专家的重要性更均匀
实验验证：纯结构化或纯非结构化都不如两者组合（图1中峰值在中间）

损失函数 / 训练策略¶

剪枝后无需微调（training-free）。整个过程在单张 H100 上两小时完成。

实验关键数据¶

主实验¶

模型	方法	稀疏度	GSM8K	说明
Snowflake Arctic (480B)	STUN	40%	几乎不降	单卡H100, 2小时
Mixtral-8x7B	纯非结构化	50%	大幅下降	现有方法失败
Mixtral-8x7B	纯结构化	50%	大幅下降	现有方法失败
Mixtral-8x7B	STUN	50%	最佳	插值点最优

关键发现¶

结构化和非结构化的最优插值显著优于两端（图1峰值在中间）
O(1) 专家剪枝在 128 专家的 Arctic 上可行，而穷举方法不可能
STUN 在生成任务（GSM8K）上表现尤其好——这是对抗剪枝的最难场景
40% 稀疏度几乎无损说明大型 MoE 确实存在大量冗余专家

亮点与洞察¶

O(1) 可扩展专家剪枝解决了 MoE 剪枝的关键瓶颈——未来 MoE 专家数会继续增长
"先结构化后非结构化"的两阶段范式可以推广到其他混合剪枝场景
在 480B Arctic 上单 H100 两小时完成剪枝，实用性极高

局限性 / 可改进方向¶

目前只在 MoE 上验证，dense 模型不适用
专家相似性度量可能对某些任务不够精确
40% 以上稀疏度的性能退化情况未详细分析

相关工作与启发¶

vs Wanda/SparseGPT: 纯非结构化方法，STUN 在 MoE 上叠加结构化后效果更好
vs MC-SMoE: 需要穷举专家组合，STUN 的 O(1) 方法更可扩展
vs LLM Surgeon: 通用剪枝方法，STUN 专门利用 MoE 结构

评分¶

新颖性: ⭐⭐⭐⭐ 两阶段插值思路简洁有效，O(1)专家剪枝的可扩展性是关键贡献
实验充分度: ⭐⭐⭐⭐ 480B Arctic + Mixtral + 多种对比
写作质量: ⭐⭐⭐⭐ 动机图（图1）直观地展示了插值优势
价值: ⭐⭐⭐⭐⭐ 对大规模MoE部署有直接实用价值