ERMoE: Eigen-Reparameterized Mixture-of-Experts for Stable Routing and Interpretable Specialization¶

会议: CVPR 2026
arXiv: 2511.10971
代码: 无
领域: 模型压缩
关键词: 混合专家模型, 特征值重参数化, 路由稳定性, 专家特化, 视觉Transformer

一句话总结¶

ERMoE 提出在正交特征基（eigenbasis）中重参数化MoE专家权重，并用特征基分数（cosine similarity）替代传统路由logits，无需辅助负载均衡损失即可实现稳定路由和可解释的专家特化。

领域现状：MoE架构通过稀疏激活扩展模型容量，但路由logits与专家结构之间的不对齐导致路由不稳定和专家利用不足，负载不均衡则造成计算瓶颈。
现有痛点：辅助负载均衡损失（LBL）虽减少不均衡，但引入干扰梯度，削弱专家特化和下游精度。问题的根源是路由器与专家的表示空间脱节。
核心矛盾：路由器需要准确地将token分配到最适合的专家，但传统的可学习路由logits在自由参数空间中操作，与专家的实际表示能力无内在联系。
本文目标：设计一种路由机制，使分配决策直接反映每个专家的内在表示子空间，从根本上解决路由-专家不对齐问题。
切入角度：通过SVD式的特征值分解重参数化专家权重，使路由基于特征-基对齐而非学习的logits。
核心idea：每个专家的权重分解为正交特征基 \(\mathbf{W}^{(e)} = \mathbf{U}^{(e)} \text{diag}(s^{(e)}) \mathbf{V}^{(e)\top}\)，路由分数为token特征与专家基之间的cosine相似度。

ViT backbone提取token embedding，在每个ERMoE block中，路由器计算每个专家的特征基分数（token特征与注意力加权上下文在专家基中投影的cosine相似度），选择超过阈值T的top-k专家，按归一化分数加权聚合输出。

特征值重参数化专家:
- 功能：将专家权重约束在正交基空间中
- 核心思路：每个专家权重 \(\mathbf{W}^{(e)} = \mathbf{U}^{(e)} \text{diag}(s^{(e)}) \mathbf{V}^{(e)\top}\)，其中 \(\mathbf{U}, \mathbf{V}\) 是正交矩阵，\(s\) 是可学习的缩放因子。通过正交约束强制专家方向可分离，减少特征冗余和表示坍塌。
- 设计动机：传统MoE专家的参数空间高度重叠，导致不同专家学到相似表示。正交基约束从数学上保证了专家子空间的可分离性。
特征基路由分数:
- 功能：基于内容对齐而非自由logits进行路由
- 核心思路：对给定专家，将输入token和其注意力加权上下文分别投影到该专家的特征基中，路由分数为两个投影的cosine相似度。超过置信度阈值T的专家才有资格被选择，然后取top-k。
- 设计动机：将路由绑定到专家的实际表示空间，使分配决策直接反映特征-基对齐度，消除了LBL的需求及其梯度干扰。
ERMoE-ba 脑龄预测变体:
- 功能：将ERMoE扩展到3D医学影像
- 核心思路：将2D ViT扩展为3D ViT处理T1 MRI体积数据，路由在区域专家和自由专家之间操作，加权输出驱动脑龄估计器。利用专家路由模式实现解剖学可解释的专家特化。
- 设计动机：验证ERMoE在非自然图像领域的有效性，并展示路由的可解释性。

标准分类/回归损失，无需辅助负载均衡损失。正交约束通过Cayley参数化或Gram-Schmidt正交化维护。

数据集	指标	ERMoE	V-MoE	Soft MoE	提升
ImageNet	Top-1 Acc	SOTA	次优	-	明显优势
COCO (检索)	R@1	SOTA	-	次优	提升
Flickr30K (检索)	R@1	SOTA	-	-	提升
脑龄预测	MAE	降低>7%	-	-	显著提升