An Efficient Private GPT Never Autoregressively Decodes¶
会议: ICML 2025
arXiv: 2505.15252
代码: 无
领域: AI安全
关键词: 隐私推理, 安全两方计算, 投机解码, 同态加密, GPT
一句话总结¶
提出 POST(Public decOding and Secure verificaTion)方法,利用公开 GPT 模型生成草稿 token 并通过私有模型安全验证,借助安全解码对输入长度不敏感的特性,实现 2.1×~6.0× 的隐私推理加速,同时保持与标准安全解码相同的隐私和生成质量。
研究背景与动机¶
领域现状:GPT 推理的隐私保护通过安全两方计算(2PC)实现——客户端和服务器基于同态加密(HE)和多方计算(MPC)联合执行推理,客户端只获得结果不接触模型权重,服务器不知道输入。
现有痛点:密码学原语带来巨大计算和通信开销——线性层的 HE 矩阵乘法计算密集,非线性层(GELU、Softmax)需要大量通信轮次。自回归解码中每步只生成一个 token,但安全开销几乎固定,导致严重的资源浪费。
核心矛盾:安全解码的延迟对输入长度不敏感——forward 1 个 token 和 forward 8 个 token 延迟几乎相同(仅 1.2×),但标准方法每步只处理 1 个 token。
本文目标:如何利用这一特性,在保证同等隐私的前提下加速安全 GPT 解码?
切入角度:借鉴投机解码(Speculative Decoding),用公开模型生成多个草稿 token,一次性安全前向验证,多个token被接受即可减少总解码步数。
核心 idea:公开模型生成草稿 + 私有模型安全验证 = 单步处理多token,利用了安全计算延迟对输入长度不敏感的独特特性。
方法详解¶
整体框架¶
POST 分为在线阶段和离线阶段: - 在线阶段:客户端用公开模型 \(\mathcal{M}'_{pub}\) 自回归生成 \(\gamma\) 个草稿 token → 两方安全 forward 全部草稿 token → 安全投机采样验证接受/拒绝 → 接受的 token 保留 + 第一个拒绝位置重新采样得到 bonus token - 离线阶段:通过知识蒸馏将公开模型对齐到私有模型的分布,提高草稿 token 的接受率
关键设计¶
-
延迟不敏感性观察:
- 功能:发现安全解码延迟对输入长度不敏感的现象,为方法提供理论基础
- 核心思路:分解延迟为三部分——(a) 单向延迟:与通信轮数相关,不随输入长度变化;(b) 计算时间:HE 的 SIMD 操作编码 8192 个值,短输入浪费空间;(c) 传输时间:HE 传输子线性增长,MPC 线性增长但非瓶颈
- 设计动机:意味着一次处理 \(\gamma\) 个 token 的成本接近处理 1 个 token,让投机解码在安全计算场景中收益巨大
-
安全投机采样协议:
- 功能:在安全计算框架下实现投机采样算法
- 核心思路:对每个草稿 token \(x_i\),比较 \(p(x_i)/q(x_i)\) 与随机数 \(r\) 的大小关系来决定接受/拒绝。关键难点在于除法和采样对密码学不友好,需要专门优化
- 设计动机:严格匹配会拒绝语义等价但不同的 token,投机采样的"软匹配"能提高接受率,同时保证输出分布与私有模型完全一致
-
知识蒸馏对齐:
- 功能:离线将公开模型对齐到私有模型,提高接受率
- 核心思路:用私有模型的输出分布指导公开模型微调,使 \(q(x|\cdot)\) 更接近 \(p(x|\cdot)\)
- 设计动机:公开模型与私有模型的差异越小,草稿被接受的概率越高,加速效果越好
损失函数 / 训练策略¶
- 知识蒸馏使用 KLD 损失对齐公开模型到私有模型
- 在线阶段无需训练/微调私有模型
- 安全性证明:POST 中客户端获得的信息与标准安全推理完全相同
实验关键数据¶
主实验¶
| 模型对 (公开→私有) | 加速比 | 网络条件 |
|---|---|---|
| LLaMA-68M → Vicuna-7B | 2.1×~3.5× | LAN/WAN |
| LLaMA-160M → Vicuna-7B | 2.8×~4.2× | LAN/WAN |
| T5-small → FLAN-T5-XL | 3.2×~5.1× | LAN/WAN |
| T5-base → FLAN-T5-XL | 3.8×~5.5× | LAN/WAN |
| FLAN-T5-small → FLAN-T5-XL | 4.0×~5.8× | LAN/WAN |
| FLAN-T5-base → FLAN-T5-XL | 4.5×~6.0× | LAN/WAN |
消融实验¶
| 配置 | 加速比 | 说明 |
|---|---|---|
| POST (无 KD) | ~2.5× | 基础加速 |
| POST + KD | ~4.5× | 知识蒸馏显著提升接受率 |
| 不同 γ 值 | γ=4~8 最优 | 太大则验证开销增加 |
| 不同网络条件 | WAN 更受益 | WAN 的固定延迟占比更大 |
关键发现¶
- 公开模型越强(如 FLAN-T5-base vs T5-small),加速比越大
- WAN 环境下加速更显著(因为固定通信延迟占比更高)
- 安全投机采样协议本身的额外开销可忽略不计
- 输出质量与标准安全解码完全一致(数学证明保证)
亮点与洞察¶
- 安全计算延迟对输入长度不敏感这一观察非常关键——这是普通投机解码不具备的独特优势(普通推理中延迟与输入近线性相关),让投机解码在安全场景中的收益放大
- 方法无需修改私有模型,即插即用,与现有安全推理框架兼容
- 随着公开模型能力不断提升(如开源 LLM 快速进步),POST 的加速效果会自然增长
局限与展望¶
- 客户端仍需部署一个公开模型,对端侧资源有一定要求
- 知识蒸馏需要一次离线训练过程
- 当前仅在 encoder-decoder(T5)和 decoder-only(Vicuna/LLaMA)架构上验证
- 未讨论对恶意对手(非半诚实模型)的安全性
相关工作与启发¶
- vs 标准安全解码: 每步只生成 1 个 token,POST 每步可生成多个,2.1~6.0× 加速
- vs 普通投机解码: 普通场景中延迟与输入长度近线性,安全场景中不敏感,POST 收益更大
- vs CipherGPT/Ditto: 这些工作优化密码协议,POST 从解码策略角度优化,正交且可结合
评分¶
- 新颖性: ⭐⭐⭐⭐ 安全计算延迟不敏感性的观察新颖且有力
- 实验充分度: ⭐⭐⭐⭐ 多模型对、多网络条件、消融完整
- 写作质量: ⭐⭐⭐⭐ 动机清晰,图示直观
- 价值: ⭐⭐⭐⭐ 实用的安全推理加速方案
相关论文¶
- [ICML 2025] Breaking the n^{1.5} Additive Error Barrier for Private and Efficient Graph Sparsification
- [NeurIPS 2025] DictPFL: Efficient and Private Federated Learning on Encrypted Gradients
- [NeurIPS 2025] MPCache: MPC-Friendly KV Cache Eviction for Efficient Private LLM Inference
- [ICML 2025] Cascade: Token-Sharded Private LLM Inference
- [NeurIPS 2025] Differentially Private Bilevel Optimization: Efficient Algorithms with Near-Optimal Rates