CryptoMoE: Privacy-Preserving and Scalable Mixture of Experts Inference via Balanced Expert Routing¶

会议: NeurIPS 2025
arXiv: 2511.01197
代码: https://github.com/PKU-SEC-Lab/CryptoMoE
领域: ai_safety
关键词: 隐私推理, MoE, 同态加密, 安全多方计算, 专家路由

一句话总结¶

首个支持 MoE 架构 LLM 隐私推理的框架 CryptoMoE，通过平衡专家路由隐藏路由信息、置信度感知调度协议和批量密文矩阵乘法协议，相比 dense baseline 实现 2.8~3.5× 延迟降低和 2.9~4.3× 通信量降低，准确率损失仅 0.8%。

研究背景与动机¶

领域现状：MoE 架构已被 LLaMA-4、DeepSeek-V3、Qwen-3 等主流 LLM 采用，通过稀疏激活实现高效大容量模型。同时基于 HE/MPC 的隐私推理框架已可以支持 GPT-2、LLaMA-1 等 dense 模型。
现有痛点：现有隐私推理框架（如 BOLT、Bumblebee）仅支持 dense 架构，无法处理 MoE 层的动态路由机制。MoE 的专家选择模式高度依赖输入——数学问题和文本理解任务激活的专家明显不同——暴露路由信息等于泄露输入类型。
核心矛盾：保护路由隐私最直观的方法是让所有 token 通过所有专家（dense baseline），但这将计算量放大 8~15×，完全抵消 MoE 的效率优势。
本文要解决什么？ 在保护路由隐私的前提下，(a) 避免巨大的计算开销；(b) 设计安全的 token 分配和聚合协议；(c) 维持接近原始模型的准确率。
切入角度：每个专家处理固定数量 \(t\) 个 token（平衡路由），使专家负载与输入无关，从而隐藏路由信息。
核心idea一句话：用推理时平衡专家路由 + 置信度优先选择来保护隐私，用批量密文矩阵乘法消除 HE 旋转瓶颈。

方法详解¶

整体框架¶

MoE 层的隐私推理分四步：❶ Gate Routing（安全 softmax + top-k）→ ❷ Secure Dispatch（将 token 分配到专家）→ ❸ Expert Compute（密文线性层）→ ❹ Secure Combine（聚合专家输出）。CryptoMoE 的核心改进在 ❷❸❹ 步。

关键设计¶

推理时平衡专家路由（Balanced Expert Routing）:
做什么：每个专家固定处理 \(t\) 个 token，不足补零、超出丢弃
核心思路：设 \(t = mk/n\)（\(m\) 为 token 数，\(k\) 为每 token 激活专家数，\(n\) 为专家总数），与原始 MoE 计算量相同。由于路由天然不均衡，实际设 \(t = 2mk/n\) 取得更好精度-效率平衡
设计动机：专家负载固定意味着服务器无法从计算模式推断输入类型，实现路由隐私保护
置信度感知安全调度协议（Confidence-Aware Secure Dispatch）:
做什么：在固定容量限制下，每个专家优先保留路由置信度最高的 \(t\) 个 token
核心思路：三步——❶ 用 \(\Pi_{\text{equal}}\) 计算每个 token 对每个专家的 boolean mask \([[M_i]]\)；❷ 用 \(\Pi_{\text{mux}}\) 结合路由权重得到优先级分数 \([[S_i]]\)，再用 \(\Pi_{\text{topk}}\) 选出 top-\(t\)；❸ 用 \(\Pi_{\text{onehot}}\) + \(\Pi_{\text{matmul}}\) 检索对应 token 嵌入
相比 CipherPrune 的通信复杂度从 \(O(kmtd)\) 降至 \(O(km\log(km))\)，因为将打分与嵌入检索解耦
安全聚合协议（Secure Combine）:
做什么：将各专家输出按原始 token 顺序重排并加权聚合
核心思路：复用 dispatch 阶段的 one-hot 矩阵转置后做 \(\Pi_{\text{matmul}}\)，同时乘以路由权重。仅需一次 \(\Pi_{\text{mul}}\) + 一次 \(\Pi_{\text{matmul}}\)
dispatch + combine 总通信开销仅占 MoE 层的 ~18%
批量密文矩阵乘法（Batch MatMul）:
做什么：将 \(n\) 个专家的 token 嵌入打包到同一密文中
核心思路：原始方案每个专家 \(t \times d_1\) 独立打包，hidden dimension 大→旋转多。Batch MatMul 将所有专家的局部嵌入打包为 \((nt \times d_1/n)\)，HE 旋转次数从 \(O(nd_1)\) 降至 \(O(d_1)\)
效果：专家线性层计算加速 3~6×，端到端延迟降低 2~3×

损失函数 / 训练策略¶

本文为推理框架，不涉及额外训练；直接使用预训练的 DeepSeekMoE、OLMoE、QWenMoE 模型。

实验关键数据¶

主实验（端到端性能，LAN 设置，\(t=2.0\)）¶

模型	方法	Avg Acc(%)	LAN 延迟(min/tok)	通信(GB)
DeepSeekMoE-16.4B	Dense baseline	62.2	2.33	9.16
	CipherPrune	59.8	1.14	5.55
	CryptoMoE	61.8 (-0.4)	0.76 (3.1×)	2.46 (3.7×)
OLMoE-6.9B	Dense baseline	63.0	0.99	3.82
	CryptoMoE	62.5 (-0.5)	0.36 (2.8×)	1.31 (2.9×)
QWenMoE-14.3B	Dense baseline	62.0	1.98	7.61
	CryptoMoE	62.0 (-0.0)	0.56 (3.5×)	1.76 (4.3×)

消融实验（LAN 延迟，DeepSeekMoE）¶

配置	Acc(%)	延迟(min/tok)
Dense Baseline	62.2	2.33
+ Balanced Expert Routing	57.9	1.20
+ Confidence-aware selection	61.8	1.20
+ Batch MatMul	61.8	0.76

关键发现¶

置信度感知选择是保精度的关键：无它精度从 62.2% 暴跌至 57.9%（-4.3%），加上后恢复至 61.8%
Batch MatMul 不影响精度但延迟减半（1.20→0.76 min/tok）
CryptoMoE 在某些配置下甚至比 insecure baseline 更快，因为 insecure baseline 无法利用 batch 打包优化
扩展到 Mixtral-47B 和 LLaMA4-Scout-109B 仍保持 98.8%~100% 精度

亮点与洞察¶

平衡路由的隐私保护思路极其简洁优雅：固定每个专家处理的 token 数，路由信息就无法从计算侧信道泄露。这个思路可推广到任何含动态分支的隐私推理场景
将 token 打分与嵌入检索解耦的 dispatch 协议设计巧妙，使通信复杂度从 \(O(kmtd)\) 降到 \(O(km\log(km))\)，是一种通用的"先选索引再查数据"范式
Batch MatMul 利用 MoE 专家并行的结构特点做密文打包，实现了 \(n\) 倍旋转操作降低

局限性 / 可改进方向¶

WAN 设置下 \(\Pi_{\text{topk}}\) 因通信轮次过多成为严重瓶颈，需要更 round-efficient 的协议
对短序列（<64 token）效果不佳，因为平衡路由在 token 极少时无法有效平衡
内存开销巨大，对 Mixtral-47B 和 LLaMA4-109B 无法在单机完成隐私推理
仅评测零样本推理任务，未验证生成（auto-regressive decoding）场景

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个 MoE 隐私推理框架，问题定义和解决方案都很新颖
实验充分度: ⭐⭐⭐⭐⭐ 三个模型、八个任务、两种网络环境、详细消融和扩展性分析
写作质量: ⭐⭐⭐⭐ 协议描述清晰，toy example 图示直观，但符号较多需要反复查阅
价值: ⭐⭐⭐⭐⭐ 直接解决 MoE 模型部署中的实际隐私痛点，代码开源