跳转至

An Efficient Private GPT Never Autoregressively Decodes

会议: ICML 2025
arXiv: 2505.15252
代码: 无
领域: AI安全
关键词: 隐私推理, 安全两方计算, 投机解码, 同态加密, GPT

一句话总结

提出 POST(Public decOding and Secure verificaTion)方法,利用公开 GPT 模型生成草稿 token 并通过私有模型安全验证,借助安全解码对输入长度不敏感的特性,实现 2.1×~6.0× 的隐私推理加速,同时保持与标准安全解码相同的隐私和生成质量。

研究背景与动机

领域现状:GPT 推理的隐私保护通过安全两方计算(2PC)实现——客户端和服务器基于同态加密(HE)和多方计算(MPC)联合执行推理,客户端只获得结果不接触模型权重,服务器不知道输入。

现有痛点:密码学原语带来巨大计算和通信开销——线性层的 HE 矩阵乘法计算密集,非线性层(GELU、Softmax)需要大量通信轮次。自回归解码中每步只生成一个 token,但安全开销几乎固定,导致严重的资源浪费。

核心矛盾:安全解码的延迟对输入长度不敏感——forward 1 个 token 和 forward 8 个 token 延迟几乎相同(仅 1.2×),但标准方法每步只处理 1 个 token。

本文目标:如何利用这一特性,在保证同等隐私的前提下加速安全 GPT 解码?

切入角度:借鉴投机解码(Speculative Decoding),用公开模型生成多个草稿 token,一次性安全前向验证,多个token被接受即可减少总解码步数。

核心 idea:公开模型生成草稿 + 私有模型安全验证 = 单步处理多token,利用了安全计算延迟对输入长度不敏感的独特特性。

方法详解

整体框架

POST 分为在线阶段和离线阶段: - 在线阶段:客户端用公开模型 \(\mathcal{M}'_{pub}\) 自回归生成 \(\gamma\) 个草稿 token → 两方安全 forward 全部草稿 token → 安全投机采样验证接受/拒绝 → 接受的 token 保留 + 第一个拒绝位置重新采样得到 bonus token - 离线阶段:通过知识蒸馏将公开模型对齐到私有模型的分布,提高草稿 token 的接受率

关键设计

  1. 延迟不敏感性观察:

    • 功能:发现安全解码延迟对输入长度不敏感的现象,为方法提供理论基础
    • 核心思路:分解延迟为三部分——(a) 单向延迟:与通信轮数相关,不随输入长度变化;(b) 计算时间:HE 的 SIMD 操作编码 8192 个值,短输入浪费空间;(c) 传输时间:HE 传输子线性增长,MPC 线性增长但非瓶颈
    • 设计动机:意味着一次处理 \(\gamma\) 个 token 的成本接近处理 1 个 token,让投机解码在安全计算场景中收益巨大
  2. 安全投机采样协议:

    • 功能:在安全计算框架下实现投机采样算法
    • 核心思路:对每个草稿 token \(x_i\),比较 \(p(x_i)/q(x_i)\) 与随机数 \(r\) 的大小关系来决定接受/拒绝。关键难点在于除法和采样对密码学不友好,需要专门优化
    • 设计动机:严格匹配会拒绝语义等价但不同的 token,投机采样的"软匹配"能提高接受率,同时保证输出分布与私有模型完全一致
  3. 知识蒸馏对齐:

    • 功能:离线将公开模型对齐到私有模型,提高接受率
    • 核心思路:用私有模型的输出分布指导公开模型微调,使 \(q(x|\cdot)\) 更接近 \(p(x|\cdot)\)
    • 设计动机:公开模型与私有模型的差异越小,草稿被接受的概率越高,加速效果越好

损失函数 / 训练策略

  • 知识蒸馏使用 KLD 损失对齐公开模型到私有模型
  • 在线阶段无需训练/微调私有模型
  • 安全性证明:POST 中客户端获得的信息与标准安全推理完全相同

实验关键数据

主实验

模型对 (公开→私有) 加速比 网络条件
LLaMA-68M → Vicuna-7B 2.1×~3.5× LAN/WAN
LLaMA-160M → Vicuna-7B 2.8×~4.2× LAN/WAN
T5-small → FLAN-T5-XL 3.2×~5.1× LAN/WAN
T5-base → FLAN-T5-XL 3.8×~5.5× LAN/WAN
FLAN-T5-small → FLAN-T5-XL 4.0×~5.8× LAN/WAN
FLAN-T5-base → FLAN-T5-XL 4.5×~6.0× LAN/WAN

消融实验

配置 加速比 说明
POST (无 KD) ~2.5× 基础加速
POST + KD ~4.5× 知识蒸馏显著提升接受率
不同 γ 值 γ=4~8 最优 太大则验证开销增加
不同网络条件 WAN 更受益 WAN 的固定延迟占比更大

关键发现

  • 公开模型越强(如 FLAN-T5-base vs T5-small),加速比越大
  • WAN 环境下加速更显著(因为固定通信延迟占比更高)
  • 安全投机采样协议本身的额外开销可忽略不计
  • 输出质量与标准安全解码完全一致(数学证明保证)

亮点与洞察

  • 安全计算延迟对输入长度不敏感这一观察非常关键——这是普通投机解码不具备的独特优势(普通推理中延迟与输入近线性相关),让投机解码在安全场景中的收益放大
  • 方法无需修改私有模型,即插即用,与现有安全推理框架兼容
  • 随着公开模型能力不断提升(如开源 LLM 快速进步),POST 的加速效果会自然增长

局限与展望

  • 客户端仍需部署一个公开模型,对端侧资源有一定要求
  • 知识蒸馏需要一次离线训练过程
  • 当前仅在 encoder-decoder(T5)和 decoder-only(Vicuna/LLaMA)架构上验证
  • 未讨论对恶意对手(非半诚实模型)的安全性

相关工作与启发

  • vs 标准安全解码: 每步只生成 1 个 token,POST 每步可生成多个,2.1~6.0× 加速
  • vs 普通投机解码: 普通场景中延迟与输入长度近线性,安全场景中不敏感,POST 收益更大
  • vs CipherGPT/Ditto: 这些工作优化密码协议,POST 从解码策略角度优化,正交且可结合

评分

  • 新颖性: ⭐⭐⭐⭐ 安全计算延迟不敏感性的观察新颖且有力
  • 实验充分度: ⭐⭐⭐⭐ 多模型对、多网络条件、消融完整
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 实用的安全推理加速方案

相关论文