EAC-MoE: Expert-Selection Aware Compressor for Mixture-of-Experts Large Language Models¶

会议: ACL 2025
arXiv: 2508.01625
代码: 无
领域: 模型压缩 / LLM效率
关键词: MoE compression, expert pruning, quantization, expert selection, sparse inference

一句话总结¶

EAC-MoE 从 MoE 模型的专家选择特性出发，提出量化时校准路由器缓解 expert-shift 问题（QESC）+ 推理时基于专家选择频率动态剪枝不重要专家（PESF），在 Mixtral-8x7B 上实现 4.92× 内存压缩和 1.68× 推理加速且精度损失不到 1%。

领域现状：MoE-LLM（如 Mixtral-8x7B、GPT-4）通过稀疏激活实现高效扩展。但 MoE 面临两大部署挑战：(1) 虽然只激活部分专家，但所有专家权重都需要加载到 GPU 内存（Mixtral-8x7B 需 94GB）；(2) 不同 token 选择不同专家导致批推理时所有专家都需要计算，低利用率专家仍造成延迟。
现有痛点：(1) 直接用 GPTQ/RTN 量化 MoE 会导致 expert-shift——量化误差改变路由选择概率，选错专家导致性能大幅下降；(2) 之前的 MoE 剪枝在推理前静态剪枝，对某些任务会严重掉点，因为不同任务依赖不同专家；(3) 权重级别剪枝率太低，加速有限。
核心矛盾：MoE 的核心优势在于不同专家处理不同任务，量化/剪枝必须保护这种任务-专家匹配关系。
本文要解决什么？ 同时解决 MoE 的内存过大和推理不够快两个问题，且不破坏其专家选择机制。
切入角度：通过分析发现——同类任务的专家选择频率高度相似（余弦相似度 >0.8），不同类任务差异大。这说明 (1) 量化需保护路由、(2) 剪枝可按任务类型动态决定。
核心idea一句话：量化后校准路由器修复 expert-shift + 推理时按当前任务类型动态裁剪低频专家。

预推理阶段（QESC）：逐层量化权重 → 校准每层路由器使量化后的专家选择概率逼近原始模型 → 输出量化的 MoE 模型。推理阶段（PESF）：统计专家选择频率 → 当某专家选择频率低于阈值时跳过计算 → 动态减少需要计算的专家数。

QESC（量化+专家选择校准）:
做什么：在量化过程中校准路由器，缓解 expert-shift 问题
核心发现：expert-shift 对性能的影响与量化误差本身几乎同等严重（Mixtral-8x7B PPL: 原始 3.84 → 仅 expert-shift 4.17 → 仅量化 4.21 → 两者叠加 4.65）
方法：逐层量化后，微调该层路由器的参数使量化后的路由输出逼近原始路由输出，用 KL 散度或 MSE 损失
设计动机：路由器参数量很少（相对于专家权重），校准开销极低但效果显著
PESF（基于专家选择频率的剪枝）:
做什么：推理时根据当前任务的专家使用频率动态跳过低频专家
核心观察：同类任务（如数学/代码/QA）的专家选择频率分布高度相似，可以用少量推理数据估计当前任务类型
方法：推理初始阶段统计各专家选择频率 → 低于阈值的专家标记为可跳过 → 后续 token 对被标记专家直接跳过计算
与静态剪枝的区别：不是推理前永久移除专家（对某些任务会掉点），而是根据当前输入动态决定
QESC + PESF 联合使用:
量化解决内存问题（4.92× 压缩使 94GB 模型可在 RTX 3090 部署）
剪枝解决延迟问题（1.68× 加速）
两者正交互补

方法	比特	内存(GB)	精度(Avg)	加速
FP16	16	94	基线	1.0×
GPTQ	3	~24	明显下降	1.0×
EAC-MoE (QESC)	3	~19	轻微下降	1.0×
EAC-MoE (QESC+PESF)	3	~19	<1%下降	1.68×

配置	Mixtral PPL	DeepSeek PPL	说明
原始模型	3.84	6.51	基线
无量化 + expert-shift	4.17	6.76	仅选错专家就掉 0.33
量化 + 无 expert-shift	4.21	6.81	仅量化误差掉 0.37
量化 + expert-shift	4.65	7.17	两者叠加掉 0.81

expert-shift 概念的提出：首次系统量化了 MoE 模型中量化导致的路由偏移问题，将其与权重量化误差解耦分析。这种分析范式可迁移到其他 MoE 场景
任务感知的动态剪枝：利用"同类任务专家偏好相似"这一发现进行推理时动态剪枝，比一刀切的静态方案更优雅
量化+剪枝联合的互补性：量化解决内存，剪枝解决延迟，两个视角分别对应 MoE 的两大部署瓶颈
实际部署意义：使 Mixtral-8x7B 从需要 94GB 降到可在 RTX 3090（24GB）部署