Enhancing Mixture-of-Experts Specialization via Cluster-Aware Upcycling¶

会议: CVPR 2026
arXiv: 2604.13508
代码: 无
领域: 模型压缩/高效模型
关键词: Mixture-of-Experts, sparse upcycling, expert specialization, cluster initialization, self-distillation

一句话总结¶

提出 Cluster-aware Upcycling，通过球面 k-means 聚类提取密集模型的语义结构来初始化 MoE 的专家和路由器参数，打破专家对称性并促进早期专业化，配合专家集成自蒸馏损失在 CLIP ViT 上一致超越现有 upcycling 方法。

研究背景与动机¶

Sparse Upcycling 通过复制预训练密集模型权重来初始化 MoE，避免从头训练的高计算成本。然而所有专家从相同权重开始、路由器随机初始化，导致专家对称性和有限的早期专业化。现有打破对称的方法包括噪声注入（效果有限）和部分重初始化（破坏预训练表示），均不理想。关键洞察是：预训练密集模型的表示已包含语义信息，可有效指导专家和路由器的初始化。

方法详解¶

整体框架¶

三步策略：(1) 球面 k-means 聚类将密集模型的激活空间分为语义簇；(2) 数据感知截断 SVD 初始化专家到对应簇的子空间；(3) 聚类质心初始化路由器权重。训练中结合专家集成自蒸馏 (EESD) 损失提供稳定监督。

关键设计¶

球面 k-means 聚类激活空间: 选择余弦相似度作为聚类目标，与路由器的 logit 计算直接对齐（\(\mathbf{W}_r \mathbf{x}\) 本质是方向对齐度量）。从校准数据集提取每个 FFN 块的输入激活向量进行聚类，得到 \(N_e\) 个簇及其质心。
数据感知截断 SVD 专家初始化: 对每个簇的激活数据计算 Cholesky 白化矩阵，在白化后的空间进行截断 SVD，保留 \(\tau\) 比例的频谱能量。这确保每个专家在对应簇的数据分布下保留主要子空间信息，同时通过交叉惩罚项抑制专家退化为相似解。
专家集成自蒸馏 (EESD): 构建 EMA 教师模型以密集模式（激活所有专家）提供稳定预测，对路由不确定的 token 提供可靠监督。稀疏 MoE 学生通过蒸馏损失向教师集成预测对齐。

损失函数 / 训练策略¶

训练目标包括任务损失 \(\mathcal{L}_{task}\)（如对比损失）、负载均衡损失 \(\mathcal{L}_{lb}\) 和 EESD 蒸馏损失。路由器初始化为聚类质心使早期路由决策与数据语义结构对齐。

实验关键数据¶

主实验¶

在 CLIP ViT-B/32 和 ViT-B/16 上评估，涵盖零样本检索和分类基准：

基准	Sparse Upcycling	Drop-Upcycling	Cluster-aware (本文)
MSCOCO I→T R@1	基线	改进有限	最优
ImageNet-1k Val	基线	改进有限	最优
VTAB Natural	基线	改进有限	最优

消融实验¶

聚类初始化 vs. 随机初始化：显著降低专家间相似度
EESD 损失对路由不确定 token 的改进最大
数据感知 SVD vs. 标准 SVD：前者更好保留簇特定信息

关键发现¶

专家间相似度显著降低，表示更多样化和解耦
路由行为更加自信，token 分配更确定
结构改进直接转化为零样本和少样本泛化提升

亮点与洞察¶

利用已有语义结构而非随机/噪声打破对称的思路非常优雅
球面 k-means 与路由器余弦对齐的一致性设计深思熟虑
定量分析证实结构改进确实带来性能收益，而非仅靠训练技巧

局限与展望¶

仅在 CLIP ViT-B 上验证，更大规模模型（ViT-L/H）的效果待探索
聚类数量与专家数量绑定，灵活性受限
校准数据集的选择和大小对聚类质量的影响未充分分析

评分¶

7/10 — 方法设计优雅，分析深入，但实验规模偏小（仅 ViT-B）。