Cascade: Token-Sharded Private LLM Inference¶
会议: ICML 2025
arXiv: 2507.05228
代码: 无
领域: AI安全
关键词: 隐私推理, Token分片, 多方计算, LLM隐私, vocab-matching攻击
一句话总结¶
提出 Cascade——一种基于 token 维度分片的多方推理协议,通过将隐藏状态按 token 维度分发给不同计算节点,避免密码学原语的高昂开销,在保持抵抗 vocab-matching 攻击能力的同时实现比 SMPC 方案快 100× 的推理速度。
研究背景与动机¶
领域现状:LLM 参数量增长使得第三方推理服务日益流行,但用户数据隐私面临风险。安全多方计算(SMPC)提供可证安全性,但在非线性操作上有极大的计算和通信开销。
现有痛点: - SMPC 方案(MPCFormer、Puma、SecFormer)在 GELU/Softmax 上用多项式近似,性能降低且仍然很慢 - 统计方案(PermLLM、STIP、Cenatur)用隐藏状态置换实现隐私,但被 Thomas et al. 的 vocab-matching 攻击轻松破解(通过逐 token 匹配词表候选到隐藏状态来还原输入)
核心矛盾:密码学方案安全但不可扩展到大型 LLM;置换方案快但不安全。
本文目标:如何在安全性和效率之间找到新的平衡点?
切入角度:不在 token 置换层面做文章,而是在 token 维度做分片——每个计算节点只看到部分 token 的隐藏状态,且相邻 token 之间保持足够大的间隔。
核心 idea:vocab-matching 攻击的计算复杂度随隐藏状态之间的 token 间隔呈指数增长(\(V^g\),其中 \(g\) 是间隔),只要间隔足够大(≥3),攻击就变得不可行。
方法详解¶
整体框架¶
Cascade 将推理计算分配给两类节点: - CompNodes:各持有一部分 token 的隐藏状态,执行所有"按 token 独立"的操作(FFN、LayerNorm、MLP 等) - AttnNodes:接收来自 CompNodes 的 Q/K/V 投影分片,执行 attention 计算,将部分注意力输出返回各 CompNodes
关键安全性来自:每个节点只看到非连续的 token 子集,token 间隔使 vocab-matching 攻击的搜索空间指数爆炸。
关键设计¶
-
Token 维度分片策略:
- 功能:将 \(N\) 个 token 的隐藏状态分成 \(\alpha\) 个不重叠子集,分发给不同 CompNodes
- 核心思路:确保每个节点看到的 token 之间的最小间隔 \(g \geq \rho\)(vocab-matching 阈值),使广义 vocab-matching 攻击需要 \(V^g\) 次前向推断,计算不可行
- 设计动机:对于典型词表大小 \(V \sim 10^5\),\(g \geq 3\) 时搜索空间 \(V^3 \sim 10^{15}\) 即超出可行范围
-
CompNode-AttnNode 分工:
- 功能:将 Transformer 计算解耦为 token-independent 和 token-interactive 部分
- 核心思路:CompNodes 执行 embedding/FFN/LayerNorm(这些在 batch 维度独立),AttnNodes 执行注意力(需要 token 间交互)
- 设计动机:注意力是唯一需要 token 间信息交互的操作,只在这里做受控的信息交换
-
广义 Vocab-Matching 攻击分析:
- 功能:将 Thomas et al. 的 vocab-matching 攻击推广到分片场景
- 核心思路:攻击者只持有部分 token 的隐藏状态 \(h_{i_1}, \dots, h_{i_k}\),恢复所有 token 的搜索成本为 \(V^{i_1} + V^{i_2-i_1} + \dots + V^{i_k-i_{k-1}}\),由最大间隔 \(g = \max_j(i_{j+1}-i_j)\) 主导
- 设计动机:为 Cascade 的安全性分析提供量化基础
损失函数 / 训练策略¶
- 无训练过程,是推理时协议
- 无性能降级——不使用非线性近似,计算与标准前向传播几乎相同
- 通信成本仅为 SMPC 的 1/150
实验关键数据¶
主实验¶
与 SMPC 方案的效率对比:
| 方案 | 推理速度 | 通信开销 | 性能降级 | 安全等级 |
|---|---|---|---|---|
| SMPC方案 | 1× (基准) | 1× (基准) | 有(多项式近似) | 密码学 |
| PermLLM | ~10× | ~5× | 无 | 被攻破 |
| Cascade | ~100× | 1/150× | 无 | 统计安全 |
消融实验¶
| 配置 | 安全性 | 说明 |
|---|---|---|
| 间隔 \(g=1\)(相邻 token) | 不安全 | 退化为标准 vocab-matching |
| 间隔 \(g=2\) | 边界 | \(V^2 \sim 10^{10}\),理论上可行但很昂贵 |
| 间隔 \(g \geq 3\) | 安全 | \(V^3 \sim 10^{15}\)+,不可行 |
| 学习型攻击 | 失败 | 训练方法无法从分片隐藏状态还原 token |
关键发现¶
- Cascade 对广义 vocab-matching 攻击安全(当 \(g \geq \rho = 3\))
- 对基于学习的反转攻击(Wan et al., Morris et al.)同样鲁棒
- 可无缝扩展到现代大规模 LLM(DeepSeek、Qwen 等)
- 不需要对模型做任何修改或微调
亮点与洞察¶
- 维度选择的巧妙:所有先前统计方案在 hidden 维度或 token 排列上做文章,Cascade 首次在 token 维度做分片,利用了 Transformer 架构中 "只有 attention 需要 token 交互"的特性
- 广义 vocab-matching 攻击的分析提供了量化安全阈值,使安全性可配置
- 100× 的加速使隐私推理首次在现代 SOTA LLM 上变得实际可用
局限与展望¶
- 统计安全而非密码学安全——不排除未来出现更强攻击的可能性
- AttnNodes 在注意力计算时仍能看到 Q/K/V 分片,可能存在信息泄露
- 半诚实模型假设——不抵抗恶意参与者
- 分片策略需要多个参与方,对部署架构有要求
- 未分析 KV-cache 在自回归生成中的安全性
相关工作与启发¶
- vs PermLLM/STIP/Cenatur: 这些置换方案被 vocab-matching 攻击破解,Cascade 通过分片而非置换实现安全
- vs SMPC: SMPC 密码学安全但慢 100×,Cascade 以统计安全换取实用性
- vs POST(2505.15252): POST 从投机解码角度加速安全推理,Cascade 从分片角度,两者正交
评分¶
- 新颖性: ⭐⭐⭐⭐ token 分片隐私推理是新范式
- 实验充分度: ⭐⭐⭐⭐ 效率和安全性分析充分
- 写作质量: ⭐⭐⭐⭐ 攻击分析清晰,安全阈值有理论根据
- 价值: ⭐⭐⭐⭐⭐ 使隐私LLM推理首次在大模型上实用
相关论文¶
- [NeurIPS 2025] MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference
- [ICML 2025] An Attack to Break Permutation-Based Private Third-Party Inference Schemes for LLMs
- [ICML 2025] An Efficient Private GPT Never Autoregressively Decodes
- [AAAI 2026] WaterMod: Modular Token-Rank Partitioning for Probability-Balanced LLM Watermarking
- [ICML 2025] Private Model Personalization Revisited