Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling¶

会议: ICLR 2026 / arXiv: 2503.04398
代码: 基于SGLang实现（约5000行Python + Triton内核）
领域: MoE推理优化 / 专家并行 / 通信优化
关键词: Mixture-of-Experts, Expert Parallelism, all-to-all通信, 模型-数据协同调度, Token-Expert亲和性

一句话总结¶

提出语义并行(Semantic Parallelism)范式，通过预测token-expert路由路径并协同调度模型放置与数据分发，大幅削减MoE推理中专家并行的all-to-all通信开销，在Attention-DP场景下吞吐提升最高2.78×，Attention-TP场景下延迟降低最高24.9%。

研究背景与动机¶

MoE模型推理受all-to-all通信瓶颈制约：EP(Expert Parallelism)将专家分布到多GPU，但需要两次all-to-all集合通信路由token到远程专家再返回，即使在400GB/s高速互联上仍占MoE层前向延迟的59.2%
现有方案将模型放置和数据调度割裂：专家放到哪个GPU和token发到哪个GPU被当作独立问题处理，导致大量不必要的跨设备通信
Token具有上下文无关的专家亲和性：实验发现token对特定专家的激活高度集中且稳定（top-k专家累计激活概率中位数达0.833-0.976），这提供了预测路由的基础
DeepSeek-V3/R1、Qwen3等MoE模型的广泛部署使得EP通信优化成为关键产业需求

方法详解¶

核心洞察：上下文无关的Token-Expert亲和性¶

对DeepSeek-V2-Lite在ShareGPT上profiling，发现每个token在不同上下文中一致性地路由到相同的top-k专家子集
F1-score中位数在所有层均达0.833-1.000，非top-k专家最大热度仅~0.05
据此构建token-expert激活频率表 T^(L) ∈ N^{t×N}，计算路由概率

离线模型调度：专家聚类与放置¶

将模型-数据协同调度建模为0-1整数规划(ILP)问题
目标函数：L = θ·负载均衡项 + (1-θ)·远程激活最小化项
约束：每个token/专家属且仅属一个cluster，每个cluster专家数相等
用交替优化算法高效求解，将co-activation频繁的专家放置到同一GPU

在线数据调度（两种场景）¶

Attention-DP场景 — 请求间调度： - 根据token-expert亲和性预测整个请求应发往哪个DP rank - S_r = argmax_j Σ_{i∈r} R_{ij}，将请求分配到其token最多激活的专家所在设备 - 配合workload-aware平衡调度，保证各rank负载均衡

Attention-TP场景 — 请求内token调度： - 利用层间专家选择的马尔可夫依赖性（2-gram设备转移模型）增强预测 - 设计Shuffled-Reduce-Scatter (SRS) 和 Shuffled-AllGather (SAG) 融合通信原语 - 将投机性token重排无缝融入TP通信阶段，开销仅~1%

系统实现¶

基于SGLang构建，约5000行Python + 自定义Triton内核
优化的argsort内核比PyTorch原生快25%
集成DeepEP通信库实现高效all-to-all

实验¶

Attention-DP场景（吞吐 under SLO约束）¶

模型	vs SGLang (TTFT SLO)	vs SGLang (E2E SLO)	vs MoETuner (TTFT)	vs MoETuner (E2E)
DeepSeek-V2-Lite	+31%	+221%	+32%	+278%
Qwen3-30B-A3B	+98%	+11%	+35%	+32%

Attention-TP场景（延迟降低）¶

模型	输入长度256	输入长度512	输入长度1024
DeepSeek-V2-Lite p99 TTFT	-12.21%	-10.60%	-18.89%
Qwen3-30B-A3B p99 TTFT	-17.16%	-24.90%	-3.80%

关键发现¶

本地激活率(LAR)比vanilla提升37-43%，对应EP层延迟降低41.8-46.6%
协同调度算法的LAR比最佳baseline(MoETuner)高15.4%，负载不平衡率更低
跨数据集零样本迁移表现验证了调度策略的泛化性

亮点¶

提出"语义并行"新范式概念，将通信优化从被动治理转为主动预防
揭示token-expert亲和性的上下文无关特性，为预测式调度提供理论基础
同时优化模型放置和数据调度，是系统性而非局部的方案
SRS/SAG融合原语设计精巧，将token重排嵌入已有通信流，额外开销仅1%

局限性¶

仅在8-GPU单节点验证，跨节点/低速互联场景效果待验证
预测模型需要离线profiling数据，冷启动时无法发挥作用
对路由机制高度动态的MoE变体更换gate函数后需重新profiling
未评估与KV缓存优化或量化技术的联合使用

评分 ⭐⭐⭐⭐⭐¶

新颖性: 5/5 — 语义并行范式+协同调度思想原创性强
实验充分度: 4/5 — 两种模型两种场景，但仅单节点
写作质量: 4/5 — 系统描述清晰，图示质量高
价值: 5/5 — MoE推理的核心痛点，产业价值极高