⚡ LLM 效率¶
📷 CVPR2025 · 共 1 篇
- Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks
-
提出一种从预训练 ViT 中自动提取 MoE(Mixture-of-Experts)变体的方法:先聚类 MLP 层的输出激活模式,再据此抽取对应的子网络作为专家,无需从头训练 MoE,在 ImageNet-1k 上仅需少量微调即可恢复 98% 原始性能,同时将 FLOPs 和模型大小分别减少 36% 和 32%。