跳转至

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

会议: ICLR 2026 / arXiv: 2503.04398
代码: 基于SGLang实现(约5000行Python + Triton内核)
领域: MoE推理优化 / 专家并行 / 通信优化
关键词: Mixture-of-Experts, Expert Parallelism, all-to-all通信, 模型-数据协同调度, Token-Expert亲和性

一句话总结

提出语义并行(Semantic Parallelism)范式,通过预测token-expert路由路径并协同调度模型放置与数据分发,大幅削减MoE推理中专家并行的all-to-all通信开销,在Attention-DP场景下吞吐提升最高2.78×,Attention-TP场景下延迟降低最高24.9%。

研究背景与动机

  1. MoE模型推理受all-to-all通信瓶颈制约:EP(Expert Parallelism)将专家分布到多GPU,但需要两次all-to-all集合通信路由token到远程专家再返回,即使在400GB/s高速互联上仍占MoE层前向延迟的59.2%
  2. 现有方案将模型放置和数据调度割裂:专家放到哪个GPU和token发到哪个GPU被当作独立问题处理,导致大量不必要的跨设备通信
  3. Token具有上下文无关的专家亲和性:实验发现token对特定专家的激活高度集中且稳定(top-k专家累计激活概率中位数达0.833-0.976),这提供了预测路由的基础
  4. DeepSeek-V3/R1、Qwen3等MoE模型的广泛部署使得EP通信优化成为关键产业需求

方法详解

核心洞察:上下文无关的Token-Expert亲和性

  • 对DeepSeek-V2-Lite在ShareGPT上profiling,发现每个token在不同上下文中一致性地路由到相同的top-k专家子集
  • F1-score中位数在所有层均达0.833-1.000,非top-k专家最大热度仅~0.05
  • 据此构建token-expert激活频率表 T^(L) ∈ N^{t×N},计算路由概率

离线模型调度:专家聚类与放置

  • 将模型-数据协同调度建模为0-1整数规划(ILP)问题
  • 目标函数:L = θ·负载均衡项 + (1-θ)·远程激活最小化项
  • 约束:每个token/专家属且仅属一个cluster,每个cluster专家数相等
  • 用交替优化算法高效求解,将co-activation频繁的专家放置到同一GPU

在线数据调度(两种场景)

Attention-DP场景 — 请求间调度: - 根据token-expert亲和性预测整个请求应发往哪个DP rank - S_r = argmax_j Σ_{i∈r} R_{ij},将请求分配到其token最多激活的专家所在设备 - 配合workload-aware平衡调度,保证各rank负载均衡

Attention-TP场景 — 请求内token调度: - 利用层间专家选择的马尔可夫依赖性(2-gram设备转移模型)增强预测 - 设计Shuffled-Reduce-Scatter (SRS) 和 Shuffled-AllGather (SAG) 融合通信原语 - 将投机性token重排无缝融入TP通信阶段,开销仅~1%

系统实现

  • 基于SGLang构建,约5000行Python + 自定义Triton内核
  • 优化的argsort内核比PyTorch原生快25%
  • 集成DeepEP通信库实现高效all-to-all

实验

Attention-DP场景(吞吐 under SLO约束)

模型 vs SGLang (TTFT SLO) vs SGLang (E2E SLO) vs MoETuner (TTFT) vs MoETuner (E2E)
DeepSeek-V2-Lite +31% +221% +32% +278%
Qwen3-30B-A3B +98% +11% +35% +32%

Attention-TP场景(延迟降低)

模型 输入长度256 输入长度512 输入长度1024
DeepSeek-V2-Lite p99 TTFT -12.21% -10.60% -18.89%
Qwen3-30B-A3B p99 TTFT -17.16% -24.90% -3.80%

关键发现

  • 本地激活率(LAR)比vanilla提升37-43%,对应EP层延迟降低41.8-46.6%
  • 协同调度算法的LAR比最佳baseline(MoETuner)高15.4%,负载不平衡率更低
  • 跨数据集零样本迁移表现验证了调度策略的泛化性

亮点

  • 提出"语义并行"新范式概念,将通信优化从被动治理转为主动预防
  • 揭示token-expert亲和性的上下文无关特性,为预测式调度提供理论基础
  • 同时优化模型放置和数据调度,是系统性而非局部的方案
  • SRS/SAG融合原语设计精巧,将token重排嵌入已有通信流,额外开销仅1%

局限性

  • 仅在8-GPU单节点验证,跨节点/低速互联场景效果待验证
  • 预测模型需要离线profiling数据,冷启动时无法发挥作用
  • 对路由机制高度动态的MoE变体更换gate函数后需重新profiling
  • 未评估与KV缓存优化或量化技术的联合使用

相关工作

  • 专家放置:MoETuner(ILP优化放置)、ExFlow(层间专家亲和性)、EPLB(DeepSeek的负载均衡)
  • MoE推理系统:DeepSpeed-MoE、Tutel、vLLM、SGLang
  • 预取/卸载:Pre-gated MoE(修改架构预测下层专家)——Sem-MoE无需修改架构
  • 本文是首个同时优化模型调度和数据调度的工作

评分 ⭐⭐⭐⭐⭐

  • 新颖性: 5/5 — 语义并行范式+协同调度思想原创性强
  • 实验充分度: 4/5 — 两种模型两种场景,但仅单节点
  • 写作质量: 4/5 — 系统描述清晰,图示质量高
  • 价值: 5/5 — MoE推理的核心痛点,产业价值极高