Analytical FFN-to-MoE Restructuring via Activation Pattern Analysis¶

会议: ACL 2026
arXiv: 2502.04416
代码: GitHub
领域: Model Compression / MoE
关键词: FFN转MoE, 激活模式分析, 共享专家, 分析式路由, 后训练压缩

一句话总结¶

提出一种分析式后训练框架，通过神经元激活模式分析将dense FFN快速重构为sparse MoE——区分高频共享专家和低频路由专家，并从激活统计量构建路由器，仅需2k样本微调即可实现1.17×加速。

领域现状：MoE架构通过稀疏激活实现参数规模与计算成本的解耦，但传统方法需要从头预训练MoE模型，成本极高。

现有痛点：(1) 现有dense-to-MoE方法（如MoEfication）基于权重聚类，忽略了不同神经元的激活频率差异；(2) LLaMA-MoE等方法需要200B token的持续训练来恢复质量；(3) 关键观察被忽略——神经元激活频率呈双模态分布，少数始终激活，多数仅条件激活。

核心矛盾：将高频始终激活的神经元与低频条件激活的神经元统一处理，会导致路由器需要为几乎所有输入激活大多数专家，破坏了MoE的稀疏性。

本文目标：利用激活模式的双模态结构设计分析式（无需大规模训练）的FFN转MoE方法。

切入角度：观察到FFN隐藏层激活高度稀疏且呈双模态——将高频神经元放入共享专家、低频神经元按共激活聚类成路由专家，路由器从统计量直接构建。

核心 idea：共享专家+路由专家的结构化划分利用了激活的自然结构，使路由器只需在真正输入依赖的专家间选择。

三阶段流程：(A) 激活模式分析——用小量校准数据计算每个神经元的激活率 \(\mu_i\)；(B) 专家构建——高频神经元→共享专家，低频神经元通过平衡分配算法聚类→路由专家；(C) 分析式路由器——直接从激活统计量构建路由函数，无需训练。

基于激活率的共享/路由专家分割:
- 功能：利用双模态激活结构构建自然的专家划分
- 核心思路：计算每个神经元的激活率 \(\mu_i\)（在top-\(K_a\)中出现的比例），高频神经元进入共享专家 \(E^s\)（始终激活），其余按激活模式相似性聚类进入路由专家 \(E_i^r\)
- 设计动机：高频神经元对几乎所有输入都重要，分散到不同路由专家会强制大多数专家总被激活，破坏稀疏性
分析式路由器构建:
- 功能：无需训练即可确定每个输入应激活哪些路由专家
- 核心思路：最小化重构误差 \(\|F_{MoE}(\mathbf{x}) - F(\mathbf{x})\|^2\) 约化为最小化未激活专家的输出贡献。用每个专家隐藏状态的 \(L_1\) 范数作为贡献代理，路由器选择贡献最大的top-\(N_k\)个专家
- 设计动机：绕过了昂贵的路由器训练，从原始FFN的激活统计量直接得到路由信号
层级稀疏性（递归应用于已有MoE）:
- 功能：对已有MoE模型的每个专家内部再次应用框架实现更细粒度稀疏
- 核心思路：在MoE模型的每个专家FFN上递归应用同样的共享/路由分割
- 设计动机：Dense→MoE适用于dense模型，递归应用则扩展到MoE模型的进一步加速

分析式重构完全无需训练（training-free baseline可直接部署）。可选的2k样本微调使用标准语言模型损失进一步提升质量。

配置	加速比	处理时间	质量
Training-free	1.17×	分钟级	可用
+2k微调	1.17×	分钟+微调	超越需数量级更多资源的方法