跳转至

Enhancing Mixture-of-Experts Specialization via Cluster-Aware Upcycling

会议: CVPR 2026
arXiv: 2604.13508
代码: 无
领域: 模型压缩/高效模型
关键词: Mixture-of-Experts, sparse upcycling, expert specialization, cluster initialization, self-distillation

一句话总结

提出 Cluster-aware Upcycling,通过球面 k-means 聚类提取密集模型的语义结构来初始化 MoE 的专家和路由器参数,打破专家对称性并促进早期专业化,配合专家集成自蒸馏损失在 CLIP ViT 上一致超越现有 upcycling 方法。

研究背景与动机

Sparse Upcycling 通过复制预训练密集模型权重来初始化 MoE,避免从头训练的高计算成本。然而所有专家从相同权重开始、路由器随机初始化,导致专家对称性和有限的早期专业化。现有打破对称的方法包括噪声注入(效果有限)和部分重初始化(破坏预训练表示),均不理想。关键洞察是:预训练密集模型的表示已包含语义信息,可有效指导专家和路由器的初始化。

方法详解

整体框架

三步策略:(1) 球面 k-means 聚类将密集模型的激活空间分为语义簇;(2) 数据感知截断 SVD 初始化专家到对应簇的子空间;(3) 聚类质心初始化路由器权重。训练中结合专家集成自蒸馏 (EESD) 损失提供稳定监督。

关键设计

  1. 球面 k-means 聚类激活空间: 选择余弦相似度作为聚类目标,与路由器的 logit 计算直接对齐(\(\mathbf{W}_r \mathbf{x}\) 本质是方向对齐度量)。从校准数据集提取每个 FFN 块的输入激活向量进行聚类,得到 \(N_e\) 个簇及其质心。

  2. 数据感知截断 SVD 专家初始化: 对每个簇的激活数据计算 Cholesky 白化矩阵,在白化后的空间进行截断 SVD,保留 \(\tau\) 比例的频谱能量。这确保每个专家在对应簇的数据分布下保留主要子空间信息,同时通过交叉惩罚项抑制专家退化为相似解。

  3. 专家集成自蒸馏 (EESD): 构建 EMA 教师模型以密集模式(激活所有专家)提供稳定预测,对路由不确定的 token 提供可靠监督。稀疏 MoE 学生通过蒸馏损失向教师集成预测对齐。

损失函数 / 训练策略

训练目标包括任务损失 \(\mathcal{L}_{task}\)(如对比损失)、负载均衡损失 \(\mathcal{L}_{lb}\) 和 EESD 蒸馏损失。路由器初始化为聚类质心使早期路由决策与数据语义结构对齐。

实验关键数据

主实验

在 CLIP ViT-B/32 和 ViT-B/16 上评估,涵盖零样本检索和分类基准:

基准 Sparse Upcycling Drop-Upcycling Cluster-aware (本文)
MSCOCO I→T R@1 基线 改进有限 最优
ImageNet-1k Val 基线 改进有限 最优
VTAB Natural 基线 改进有限 最优

消融实验

  • 聚类初始化 vs. 随机初始化:显著降低专家间相似度
  • EESD 损失对路由不确定 token 的改进最大
  • 数据感知 SVD vs. 标准 SVD:前者更好保留簇特定信息

关键发现

  • 专家间相似度显著降低,表示更多样化和解耦
  • 路由行为更加自信,token 分配更确定
  • 结构改进直接转化为零样本和少样本泛化提升

亮点与洞察

  • 利用已有语义结构而非随机/噪声打破对称的思路非常优雅
  • 球面 k-means 与路由器余弦对齐的一致性设计深思熟虑
  • 定量分析证实结构改进确实带来性能收益,而非仅靠训练技巧

局限与展望

  • 仅在 CLIP ViT-B 上验证,更大规模模型(ViT-L/H)的效果待探索
  • 聚类数量与专家数量绑定,灵活性受限
  • 校准数据集的选择和大小对聚类质量的影响未充分分析

相关工作与启发

  • 数据感知 SVD 初始化思路可推广到其他模型扩容场景
  • EESD 的密集教师-稀疏学生蒸馏范式可用于其他 MoE 训练
  • 聚类质心初始化路由器的方法简单有效

评分

7/10 — 方法设计优雅,分析深入,但实验规模偏小(仅 ViT-B)。

相关论文