跳转至

Cascade: Token-Sharded Private LLM Inference

会议: ICML 2025
arXiv: 2507.05228
代码: 无
领域: AI安全
关键词: 隐私推理, Token分片, 多方计算, LLM隐私, vocab-matching攻击

一句话总结

提出 Cascade——一种基于 token 维度分片的多方推理协议,通过将隐藏状态按 token 维度分发给不同计算节点,避免密码学原语的高昂开销,在保持抵抗 vocab-matching 攻击能力的同时实现比 SMPC 方案快 100× 的推理速度。

研究背景与动机

领域现状:LLM 参数量增长使得第三方推理服务日益流行,但用户数据隐私面临风险。安全多方计算(SMPC)提供可证安全性,但在非线性操作上有极大的计算和通信开销。

现有痛点: - SMPC 方案(MPCFormer、Puma、SecFormer)在 GELU/Softmax 上用多项式近似,性能降低且仍然很慢 - 统计方案(PermLLM、STIP、Cenatur)用隐藏状态置换实现隐私,但被 Thomas et al. 的 vocab-matching 攻击轻松破解(通过逐 token 匹配词表候选到隐藏状态来还原输入)

核心矛盾:密码学方案安全但不可扩展到大型 LLM;置换方案快但不安全。

本文目标:如何在安全性和效率之间找到新的平衡点?

切入角度:不在 token 置换层面做文章,而是在 token 维度做分片——每个计算节点只看到部分 token 的隐藏状态,且相邻 token 之间保持足够大的间隔。

核心 idea:vocab-matching 攻击的计算复杂度随隐藏状态之间的 token 间隔呈指数增长(\(V^g\),其中 \(g\) 是间隔),只要间隔足够大(≥3),攻击就变得不可行。

方法详解

整体框架

Cascade 将推理计算分配给两类节点: - CompNodes:各持有一部分 token 的隐藏状态,执行所有"按 token 独立"的操作(FFN、LayerNorm、MLP 等) - AttnNodes:接收来自 CompNodes 的 Q/K/V 投影分片,执行 attention 计算,将部分注意力输出返回各 CompNodes

关键安全性来自:每个节点只看到非连续的 token 子集,token 间隔使 vocab-matching 攻击的搜索空间指数爆炸。

关键设计

  1. Token 维度分片策略:

    • 功能:将 \(N\) 个 token 的隐藏状态分成 \(\alpha\) 个不重叠子集,分发给不同 CompNodes
    • 核心思路:确保每个节点看到的 token 之间的最小间隔 \(g \geq \rho\)(vocab-matching 阈值),使广义 vocab-matching 攻击需要 \(V^g\) 次前向推断,计算不可行
    • 设计动机:对于典型词表大小 \(V \sim 10^5\)\(g \geq 3\) 时搜索空间 \(V^3 \sim 10^{15}\) 即超出可行范围
  2. CompNode-AttnNode 分工:

    • 功能:将 Transformer 计算解耦为 token-independent 和 token-interactive 部分
    • 核心思路:CompNodes 执行 embedding/FFN/LayerNorm(这些在 batch 维度独立),AttnNodes 执行注意力(需要 token 间交互)
    • 设计动机:注意力是唯一需要 token 间信息交互的操作,只在这里做受控的信息交换
  3. 广义 Vocab-Matching 攻击分析:

    • 功能:将 Thomas et al. 的 vocab-matching 攻击推广到分片场景
    • 核心思路:攻击者只持有部分 token 的隐藏状态 \(h_{i_1}, \dots, h_{i_k}\),恢复所有 token 的搜索成本为 \(V^{i_1} + V^{i_2-i_1} + \dots + V^{i_k-i_{k-1}}\),由最大间隔 \(g = \max_j(i_{j+1}-i_j)\) 主导
    • 设计动机:为 Cascade 的安全性分析提供量化基础

损失函数 / 训练策略

  • 无训练过程,是推理时协议
  • 无性能降级——不使用非线性近似,计算与标准前向传播几乎相同
  • 通信成本仅为 SMPC 的 1/150

实验关键数据

主实验

与 SMPC 方案的效率对比:

方案 推理速度 通信开销 性能降级 安全等级
SMPC方案 1× (基准) 1× (基准) 有(多项式近似) 密码学
PermLLM ~10× ~5× 被攻破
Cascade ~100× 1/150× 统计安全

消融实验

配置 安全性 说明
间隔 \(g=1\)(相邻 token) 不安全 退化为标准 vocab-matching
间隔 \(g=2\) 边界 \(V^2 \sim 10^{10}\),理论上可行但很昂贵
间隔 \(g \geq 3\) 安全 \(V^3 \sim 10^{15}\)+,不可行
学习型攻击 失败 训练方法无法从分片隐藏状态还原 token

关键发现

  • Cascade 对广义 vocab-matching 攻击安全(当 \(g \geq \rho = 3\)
  • 对基于学习的反转攻击(Wan et al., Morris et al.)同样鲁棒
  • 可无缝扩展到现代大规模 LLM(DeepSeek、Qwen 等)
  • 不需要对模型做任何修改或微调

亮点与洞察

  • 维度选择的巧妙:所有先前统计方案在 hidden 维度或 token 排列上做文章,Cascade 首次在 token 维度做分片,利用了 Transformer 架构中 "只有 attention 需要 token 交互"的特性
  • 广义 vocab-matching 攻击的分析提供了量化安全阈值,使安全性可配置
  • 100× 的加速使隐私推理首次在现代 SOTA LLM 上变得实际可用

局限与展望

  • 统计安全而非密码学安全——不排除未来出现更强攻击的可能性
  • AttnNodes 在注意力计算时仍能看到 Q/K/V 分片,可能存在信息泄露
  • 半诚实模型假设——不抵抗恶意参与者
  • 分片策略需要多个参与方,对部署架构有要求
  • 未分析 KV-cache 在自回归生成中的安全性

相关工作与启发

  • vs PermLLM/STIP/Cenatur: 这些置换方案被 vocab-matching 攻击破解,Cascade 通过分片而非置换实现安全
  • vs SMPC: SMPC 密码学安全但慢 100×,Cascade 以统计安全换取实用性
  • vs POST(2505.15252): POST 从投机解码角度加速安全推理,Cascade 从分片角度,两者正交

评分

  • 新颖性: ⭐⭐⭐⭐ token 分片隐私推理是新范式
  • 实验充分度: ⭐⭐⭐⭐ 效率和安全性分析充分
  • 写作质量: ⭐⭐⭐⭐ 攻击分析清晰,安全阈值有理论根据
  • 价值: ⭐⭐⭐⭐⭐ 使隐私LLM推理首次在大模型上实用

相关论文