MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping¶

会议: CVPR 2026
arXiv: 2511.15690
代码: https://github.com/ModelTC/MoDES
领域: 多模态VLM / MoE加速 / 高效推理
关键词: MoE, 专家跳过, 双模态阈值, 全局调制局部门控, 多模态大模型加速

一句话总结¶

首个针对MoE多模态大模型的专家跳过框架MoDES,通过全局调制局部门控(GMLG)将层级重要性融入路由概率、双模态阈值(DMT)对文本/视觉token分别设定跳过策略、前沿搜索高效优化阈值,在Qwen3-VL-MoE-30B上88%专家跳过仍保留97.33%精度,prefill加速2.16×。

背景与动机¶

MoE MLLM(如Kimi-VL、Qwen3-VL-MoE)通过稀疏激活部分专家来降低计算成本,但仍存在效率瓶颈——固定的top-k路由为所有token激活相同数量的专家。现有专家跳过方法(NAEE、MC-MoE、DiEP)针对文本LLM设计,直接迁移到MLLM导致>10%性能下降(83%跳过率下)。分析揭示两个被忽视的因素：(1) 全局贡献失配——浅层专家对最终输出影响远大于深层(error explosion效应);(2) 模态差异——视觉token与FFN权重更正交(角度→90°),专家对视觉token更新幅度更小,冗余度更高。

核心问题¶

如何为MoE MLLM设计模态感知、层级感知的专家跳过策略,在极端跳过率(>80%)下仍保持近baseline精度?

方法详解¶

整体框架¶

MoDES由两个核心组件构成：(1) GMLG估计每个token-expert对的重要性分数；(2) DMT根据token模态选择不同的跳过阈值,阈值通过前沿搜索算法高效确定。整个流程training-free。

关键设计¶

全局调制局部门控 (GMLG)：重要性分数\(s_i^{(l)} = \alpha^{(l)} \cdot \pi_i^{(l)}\),其中\(\pi_i^{(l)}\)是标准路由概率(局部信号),\(\alpha^{(l)}\)是通过离线校准计算的层级全局权重——对第\(l\)层所有专家跳过后量测KL散度。\(\alpha^{(l)}\)在浅层高、深层低,确保浅层专家更少被跳过。校准仅需1024样本,约20min-4hr(20-30B模型)。
双模态阈值 (DMT)：分别为文本token和视觉token设定不同跳过阈值\(\tau_t\)和\(\tau_v\)。决策：\(\{Expert_i^{(l)} | s_i^{(l)} < \tau_t \cdot \mathbb{I}_t + \tau_v \cdot \mathbb{I}_v\}\)被跳过。可视化显示:实际策略中视觉token在所有层被跳过的比例远高于文本token(>90% vs 50-70%),验证了视觉experts冗余度更高的洞察。
前沿搜索 (Frontier Search)：在\((\tau_t, \tau_v)\)的二维网格\(\mathcal{B}^2\)上优化,利用\(f\)(KL散度)和\(g\)(跳过率)的单调性,将搜索从\(O(ND^2)\)降至\(O(ND)\)——实测搜索时间减少~45×。有严格的正确性和最优性证明(Lemma 1-4 + Proposition 1-2)。

损失函数 / 训练策略¶

完全training-free。离线校准\(\alpha^{(l)}\)和前沿搜索\((\tau_t^*, \tau_v^*)\)均在1024个GQA样本上完成。推理时仅需在MoE层的router kernel中添加branch-free的masked comparison,无额外kernel launch。

实验关键数据¶

模型	跳过率	MoDES	MC-MoE	DiEP	NAEE	直接减k
Kimi-VL-A3B	50%	99.91%	97.69	98.17	96.44	95.93
Kimi-VL-A3B	67%	98.46%	95.45	94.81	94.03	93.88
Kimi-VL-A3B	83%	96.25%	88.32	87.58	82.81	71.60
Qwen3-VL-MoE-30B	88%	97.33%	86.66	85.30	80.60	60.11
InternVL-3.5-30B	88%	97.03%	86.20	83.26	78.88	59.63

推理加速(Qwen3-VL-MoE-30B): prefill 2.16×, decode 1.26×。

与量化兼容: 2.5-bit量化+MoDES在Qwen3上保留94.43%精度(MC-MoE 89.58%)。

消融实验要点¶

GMLG和DMT均关键：跳过83%专家时,单纯Thresholding 82.81%→+GMLG 84.48%→+DMT 85.50%→GMLG+DMT 96.25%
模态差异真实存在：减少视觉token的top-k=1性能仅微降,减少文本token则严重下降——视觉experts冗余远高
数据选择不敏感：GQA/COCO/VMMMU校准结果几乎一致(均~96%)
\(\alpha^{(l)}\)模式一致：不同数据集上层级KL散度分布相似,浅层>深层
前沿搜索vs穷举：精度几乎相同(96.24 vs 96.25%)但时间减少45×

亮点¶

首个MoE MLLM专家跳过框架——之前方法全部针对单模态LLM,直接迁移大幅失效
"视觉token对experts的冗余度更高"的发现与V2Drop/ApET的"大量视觉token冗余"一脉相承——只是这次是在expert维度而非token维度
前沿搜索有完整数学证明(单调性→可行域结构→最优性),理论功底扎实
88%跳过率保留97%精度是惊人的——说明MoE模型本身就大量过度分配experts
与量化正交可组合——未来可以MoDES+量化+token压缩三管齐下

局限性 / 可改进方向¶

阈值通过离线搜索确定,不同任务/输入可能需要不同阈值——输入自适应的动态阈值值得探索
仅验证了3个MoE MLLM (Kimi-VL/Qwen3-VL/InternVL3.5),更多架构待测
解码阶段加速有限(1.26×),主要因为解码是memory-bound且只处理文本token
\(\alpha^{(l)}\)校准需要forward pass每层跳过的模型,计算开销随层数线性增长
未探索动态改变top-k(而非固定top-k后跳过)的策略

与相关工作的对比¶

vs NAEE/MC-MoE (LLM expert skipping)：为单模态LLM设计,迁移到MLLM后83%跳过率精度<89%。MoDES 96.25%——差距巨大
vs DiEP (可微专家剪枝)：DiEP在training-aware框架中做专家相似度+路由概率剪枝,但忽略层级差异和模态差异,MoDES training-free且更好
vs V2Drop/DUET-VLM (token压缩)：正交互补——V2Drop压缩视觉token数量,MoDES压缩每个token激活的expert数量。二者可以组合使用
vs ApET (近似误差压缩)：ApET从信息论角度减少token,MoDES从expert角度减少计算。思路不同但目标相同

启发与关联¶

MoDES的"浅层更重要"发现与Overthinking论文的"中间层到深层的hypotheses不稳定→幻觉"互相印证——两者都指向"不是所有层同等重要"
与ideas/model_compression/20260316_adaptive_model_routing.md相关——该idea探索自适应路由,MoDES提供了模态感知路由的具体实例
组合idea: MoDES(expert跳过) + V2Drop(token丢弃) + ApET(token合并) 三层压缩 → 极致VLM推理加速

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将expert skipping适配到多模态MoE,两个洞察(层级+模态)和前沿搜索算法均为新贡献
实验充分度: ⭐⭐⭐⭐⭐ 3个MoE模型系列、13个基准、多跳过率、量化组合、详细消融、数学证明
写作质量: ⭐⭐⭐⭐⭐ 动机→分析→方法→验证的逻辑完美,附录包含完整证明
价值: ⭐⭐⭐⭐⭐ MoE MLLM已成主流(Kimi-VL/DeepSeek/Qwen3都用MoE),该方法直接可落地