Cascade: Token-Sharded Private LLM Inference¶

会议: ICML 2025
arXiv: 2507.05228
代码: 无
领域: AI安全
关键词: 隐私推理, Token分片, 多方计算, LLM隐私, vocab-matching攻击

一句话总结¶

提出 Cascade——一种基于 token 维度分片的多方推理协议，通过将隐藏状态按 token 维度分发给不同计算节点，避免密码学原语的高昂开销，在保持抵抗 vocab-matching 攻击能力的同时实现比 SMPC 方案快 100× 的推理速度。

研究背景与动机¶

领域现状：LLM 参数量增长使得第三方推理服务日益流行，但用户数据隐私面临风险。安全多方计算（SMPC）提供可证安全性，但在非线性操作上有极大的计算和通信开销。

现有痛点： - SMPC 方案（MPCFormer、Puma、SecFormer）在 GELU/Softmax 上用多项式近似，性能降低且仍然很慢 - 统计方案（PermLLM、STIP、Cenatur）用隐藏状态置换实现隐私，但被 Thomas et al. 的 vocab-matching 攻击轻松破解（通过逐 token 匹配词表候选到隐藏状态来还原输入）

核心矛盾：密码学方案安全但不可扩展到大型 LLM；置换方案快但不安全。

本文目标：如何在安全性和效率之间找到新的平衡点？

切入角度：不在 token 置换层面做文章，而是在 token 维度做分片——每个计算节点只看到部分 token 的隐藏状态，且相邻 token 之间保持足够大的间隔。

核心 idea：vocab-matching 攻击的计算复杂度随隐藏状态之间的 token 间隔呈指数增长（\(V^g\)，其中 \(g\) 是间隔），只要间隔足够大（≥3），攻击就变得不可行。

方法详解¶

整体框架¶

Cascade 将推理计算分配给两类节点： - CompNodes：各持有一部分 token 的隐藏状态，执行所有"按 token 独立"的操作（FFN、LayerNorm、MLP 等） - AttnNodes：接收来自 CompNodes 的 Q/K/V 投影分片，执行 attention 计算，将部分注意力输出返回各 CompNodes

关键安全性来自：每个节点只看到非连续的 token 子集，token 间隔使 vocab-matching 攻击的搜索空间指数爆炸。

关键设计¶

Token 维度分片策略:
- 功能：将 \(N\) 个 token 的隐藏状态分成 \(\alpha\) 个不重叠子集，分发给不同 CompNodes
- 核心思路：确保每个节点看到的 token 之间的最小间隔 \(g \geq \rho\)（vocab-matching 阈值），使广义 vocab-matching 攻击需要 \(V^g\) 次前向推断，计算不可行
- 设计动机：对于典型词表大小 \(V \sim 10^5\)，\(g \geq 3\) 时搜索空间 \(V^3 \sim 10^{15}\) 即超出可行范围
CompNode-AttnNode 分工:
- 功能：将 Transformer 计算解耦为 token-independent 和 token-interactive 部分
- 核心思路：CompNodes 执行 embedding/FFN/LayerNorm（这些在 batch 维度独立），AttnNodes 执行注意力（需要 token 间交互）
- 设计动机：注意力是唯一需要 token 间信息交互的操作，只在这里做受控的信息交换
广义 Vocab-Matching 攻击分析:
- 功能：将 Thomas et al. 的 vocab-matching 攻击推广到分片场景
- 核心思路：攻击者只持有部分 token 的隐藏状态 \(h_{i_1}, \dots, h_{i_k}\)，恢复所有 token 的搜索成本为 \(V^{i_1} + V^{i_2-i_1} + \dots + V^{i_k-i_{k-1}}\)，由最大间隔 \(g = \max_j(i_{j+1}-i_j)\) 主导
- 设计动机：为 Cascade 的安全性分析提供量化基础

损失函数 / 训练策略¶

无训练过程，是推理时协议
无性能降级——不使用非线性近似，计算与标准前向传播几乎相同
通信成本仅为 SMPC 的 1/150

实验关键数据¶

主实验¶

与 SMPC 方案的效率对比：

方案	推理速度	通信开销	性能降级	安全等级
SMPC方案	1× (基准)	1× (基准)	有（多项式近似）	密码学
PermLLM	~10×	~5×	无	被攻破
Cascade	~100×	1/150×	无	统计安全

消融实验¶

配置	安全性	说明
间隔 \(g=1\)（相邻 token）	不安全	退化为标准 vocab-matching
间隔 \(g=2\)	边界	\(V^2 \sim 10^{10}\)，理论上可行但很昂贵
间隔 \(g \geq 3\)	安全	\(V^3 \sim 10^{15}\)+，不可行
学习型攻击	失败	训练方法无法从分片隐藏状态还原 token

关键发现¶

Cascade 对广义 vocab-matching 攻击安全（当 \(g \geq \rho = 3\)）
对基于学习的反转攻击（Wan et al., Morris et al.）同样鲁棒
可无缝扩展到现代大规模 LLM（DeepSeek、Qwen 等）
不需要对模型做任何修改或微调

亮点与洞察¶

维度选择的巧妙：所有先前统计方案在 hidden 维度或 token 排列上做文章，Cascade 首次在 token 维度做分片，利用了 Transformer 架构中 "只有 attention 需要 token 交互"的特性
广义 vocab-matching 攻击的分析提供了量化安全阈值，使安全性可配置
100× 的加速使隐私推理首次在现代 SOTA LLM 上变得实际可用

局限与展望¶

统计安全而非密码学安全——不排除未来出现更强攻击的可能性
AttnNodes 在注意力计算时仍能看到 Q/K/V 分片，可能存在信息泄露
半诚实模型假设——不抵抗恶意参与者
分片策略需要多个参与方，对部署架构有要求
未分析 KV-cache 在自回归生成中的安全性

评分¶

新颖性: ⭐⭐⭐⭐ token 分片隐私推理是新范式
实验充分度: ⭐⭐⭐⭐ 效率和安全性分析充分
写作质量: ⭐⭐⭐⭐ 攻击分析清晰，安全阈值有理论根据
价值: ⭐⭐⭐⭐⭐ 使隐私LLM推理首次在大模型上实用