⚡ LLM 效率¶

📷 CVPR2025 · 共 1 篇

Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks: 提出一种从预训练 ViT 中自动提取 MoE（Mixture-of-Experts）变体的方法：先聚类 MLP 层的输出激活模式，再据此抽取对应的子网络作为专家，无需从头训练 MoE，在 ImageNet-1k 上仅需少量微调即可恢复 98% 原始性能，同时将 FLOPs 和模型大小分别减少 36% 和 32%。