An Efficient Private GPT Never Autoregressively Decodes¶

会议: ICML 2025
arXiv: 2505.15252
代码: 无
领域: AI安全
关键词: 隐私推理, 安全两方计算, 投机解码, 同态加密, GPT

一句话总结¶

提出 POST（Public decOding and Secure verificaTion）方法，利用公开 GPT 模型生成草稿 token 并通过私有模型安全验证，借助安全解码对输入长度不敏感的特性，实现 2.1×~6.0× 的隐私推理加速，同时保持与标准安全解码相同的隐私和生成质量。

研究背景与动机¶

领域现状：GPT 推理的隐私保护通过安全两方计算（2PC）实现——客户端和服务器基于同态加密（HE）和多方计算（MPC）联合执行推理，客户端只获得结果不接触模型权重，服务器不知道输入。

现有痛点：密码学原语带来巨大计算和通信开销——线性层的 HE 矩阵乘法计算密集，非线性层（GELU、Softmax）需要大量通信轮次。自回归解码中每步只生成一个 token，但安全开销几乎固定，导致严重的资源浪费。

核心矛盾：安全解码的延迟对输入长度不敏感——forward 1 个 token 和 forward 8 个 token 延迟几乎相同（仅 1.2×），但标准方法每步只处理 1 个 token。

本文目标：如何利用这一特性，在保证同等隐私的前提下加速安全 GPT 解码？

切入角度：借鉴投机解码（Speculative Decoding），用公开模型生成多个草稿 token，一次性安全前向验证，多个token被接受即可减少总解码步数。

核心 idea：公开模型生成草稿 + 私有模型安全验证 = 单步处理多token，利用了安全计算延迟对输入长度不敏感的独特特性。

方法详解¶

整体框架¶

POST 分为在线阶段和离线阶段： - 在线阶段：客户端用公开模型 \(\mathcal{M}'_{pub}\) 自回归生成 \(\gamma\) 个草稿 token → 两方安全 forward 全部草稿 token → 安全投机采样验证接受/拒绝 → 接受的 token 保留 + 第一个拒绝位置重新采样得到 bonus token - 离线阶段：通过知识蒸馏将公开模型对齐到私有模型的分布，提高草稿 token 的接受率

关键设计¶

延迟不敏感性观察:
- 功能：发现安全解码延迟对输入长度不敏感的现象，为方法提供理论基础
- 核心思路：分解延迟为三部分——(a) 单向延迟：与通信轮数相关，不随输入长度变化；(b) 计算时间：HE 的 SIMD 操作编码 8192 个值，短输入浪费空间；(c) 传输时间：HE 传输子线性增长，MPC 线性增长但非瓶颈
- 设计动机：意味着一次处理 \(\gamma\) 个 token 的成本接近处理 1 个 token，让投机解码在安全计算场景中收益巨大
安全投机采样协议:
- 功能：在安全计算框架下实现投机采样算法
- 核心思路：对每个草稿 token \(x_i\)，比较 \(p(x_i)/q(x_i)\) 与随机数 \(r\) 的大小关系来决定接受/拒绝。关键难点在于除法和采样对密码学不友好，需要专门优化
- 设计动机：严格匹配会拒绝语义等价但不同的 token，投机采样的"软匹配"能提高接受率，同时保证输出分布与私有模型完全一致
知识蒸馏对齐:
- 功能：离线将公开模型对齐到私有模型，提高接受率
- 核心思路：用私有模型的输出分布指导公开模型微调，使 \(q(x|\cdot)\) 更接近 \(p(x|\cdot)\)
- 设计动机：公开模型与私有模型的差异越小，草稿被接受的概率越高，加速效果越好

损失函数 / 训练策略¶

知识蒸馏使用 KLD 损失对齐公开模型到私有模型
在线阶段无需训练/微调私有模型
安全性证明：POST 中客户端获得的信息与标准安全推理完全相同

实验关键数据¶

主实验¶

模型对 (公开→私有)	加速比	网络条件
LLaMA-68M → Vicuna-7B	2.1×~3.5×	LAN/WAN
LLaMA-160M → Vicuna-7B	2.8×~4.2×	LAN/WAN
T5-small → FLAN-T5-XL	3.2×~5.1×	LAN/WAN
T5-base → FLAN-T5-XL	3.8×~5.5×	LAN/WAN
FLAN-T5-small → FLAN-T5-XL	4.0×~5.8×	LAN/WAN
FLAN-T5-base → FLAN-T5-XL	4.5×~6.0×	LAN/WAN

消融实验¶

配置	加速比	说明
POST (无 KD)	~2.5×	基础加速
POST + KD	~4.5×	知识蒸馏显著提升接受率
不同 γ 值	γ=4~8 最优	太大则验证开销增加
不同网络条件	WAN 更受益	WAN 的固定延迟占比更大

关键发现¶

公开模型越强（如 FLAN-T5-base vs T5-small），加速比越大
WAN 环境下加速更显著（因为固定通信延迟占比更高）
安全投机采样协议本身的额外开销可忽略不计
输出质量与标准安全解码完全一致（数学证明保证）

亮点与洞察¶

安全计算延迟对输入长度不敏感这一观察非常关键——这是普通投机解码不具备的独特优势（普通推理中延迟与输入近线性相关），让投机解码在安全场景中的收益放大
方法无需修改私有模型，即插即用，与现有安全推理框架兼容
随着公开模型能力不断提升（如开源 LLM 快速进步），POST 的加速效果会自然增长

局限与展望¶

客户端仍需部署一个公开模型，对端侧资源有一定要求
知识蒸馏需要一次离线训练过程
当前仅在 encoder-decoder（T5）和 decoder-only（Vicuna/LLaMA）架构上验证
未讨论对恶意对手（非半诚实模型）的安全性

评分¶

新颖性: ⭐⭐⭐⭐ 安全计算延迟不敏感性的观察新颖且有力
实验充分度: ⭐⭐⭐⭐ 多模型对、多网络条件、消融完整
写作质量: ⭐⭐⭐⭐ 动机清晰，图示直观
价值: ⭐⭐⭐⭐ 实用的安全推理加速方案