Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks¶

会议: CVPR 2025
arXiv: 见CVF
代码: 待确认
领域: LLM效率
关键词: MoE, ViT, 模型压缩, 专家提取, 稀疏激活

一句话总结¶

提出一种从预训练 ViT 中自动提取 MoE（Mixture-of-Experts）变体的方法：先聚类 MLP 层的输出激活模式，再据此抽取对应的子网络作为专家，无需从头训练 MoE，在 ImageNet-1k 上仅需少量微调即可恢复 98% 原始性能，同时将 FLOPs 和模型大小分别减少 36% 和 32%。

研究背景与动机¶

领域现状：Vision Transformer（ViT）已成为多种 CV 任务的最强模型，但其高计算量和资源需求是实际部署的核心挑战。MoE 架构可以提升效率，但传统 MoE 通常需要从头训练或昂贵的重训练。
现有痛点：现有的 MoE 转换方法要么需要完整重训练，要么依赖启发式规则，计算成本高且效果不稳定。
核心矛盾：如何在不重训练的前提下从已训练好的稠密模型中提取高效的 MoE 结构。
本文要解决什么？ 从预训练 ViT 的 MLP 层中自动发现专家结构并提取子网络。
切入角度：作者观察到预训练 ViT 的 MLP 层天然存在稀疏激活模式——对于不同样本，只有部分神经元被激活。这意味着稠密模型内部已经隐式地包含了"专家"结构。
核心idea一句话：通过聚类激活模式发现隐式专家 → 提取对应子网络 → 构造 MoE，免去从头训练。

方法详解¶

整体框架¶

方法分为两个阶段： 1. 激活聚类阶段：在数据集上运行预训练模型，收集各 MLP 层的输出激活，用聚类算法识别出不同的激活模式（每个聚类对应一种"专家"行为）。 2. 子网络提取阶段：根据聚类结果，提取每个激活模式对应的神经元子集，构造为独立的专家子网络。推理时根据输入样本激活对应的专家即可。

关键设计¶

核心模块:
做什么：从稠密 MLP 层中提取稀疏专家子网络
核心思路：基于激活模式聚类确定专家边界，然后物理分离子网络
设计动机：稠密模型的 MLP 层本身就存在稀疏激活，利用这一特性可以零成本发现专家结构

损失函数 / 训练策略¶

提取后仅需少量微调（minimal fine-tuning），无需完整重训练。

实验关键数据¶

主实验¶

在 ImageNet-1k 识别任务上验证：提取的专家模型开箱即用就有不错性能，微调后可恢复原始性能的 98%，同时 FLOPs 减少高达 36%，模型大小减少 32%。

数据集	指标	本文	说明
ImageNet-1k	性能恢复率	98%	仅需少量微调
ImageNet-1k	FLOPs 减少	36%	显著加速
ImageNet-1k	模型大小减少	32%	显著压缩

消融实验¶

配置	关键指标	说明
完整模型	最优	完整方法
去除核心模块	下降	验证核心贡献

关键发现¶

预训练 ViT 的 MLP 层确实存在可利用的稀疏激活模式
提取的专家不经微调就有一定性能，说明"隐式专家"结构确实存在
少量微调即可恢复接近原始性能

亮点与洞察¶

"隐式专家发现"的思路很有启发——不是设计新架构，而是揭示已有模型中潜藏的结构
方法的轻量属性（免重训练）使其对工业部署很友好

局限性 / 可改进方向¶

仅在 ViT 上验证，是否适用于 LLM（如 Llama 的 MLP 层）待验证
聚类算法的选择和超参敏感性未详述
需阅读全文了解路由策略和专家数量的确定方式

评分¶

新颖性: ⭐⭐⭐⭐ "从稠密模型发现隐式 MoE"的角度新颖
实验充分度: ⭐⭐⭐ 基于摘要，ImageNet 单数据集
写作质量: ⭐⭐⭐ 基于摘要初评
价值: ⭐⭐⭐⭐ 对 MoE 和模型压缩领域有实用价值