Stealing Training Data from Large Language Models in Decentralized Training through Activation Inversion Attack¶
会议: ACL 2025
arXiv: 2502.16086
代码: 无
领域: LLM安全
关键词: 去中心化训练, 隐私攻击, 激活反转, 数据泄露, 管道并行
一句话总结¶
本文首次提出针对去中心化训练的激活反转攻击(AIA),通过构建影子数据集训练攻击模型,恶意阶段可以从传输的激活值中重建训练数据,在 GPT2-XL 上实现了 62% 的邮件地址窃取准确率。
研究背景与动机¶
- 领域现状:去中心化训练(基于管道并行)是降低 LLM 训练资源门槛的重要框架,但其安全性研究主要集中在容错和模型收敛攻击,隐私风险被忽视。
- 现有痛点:现有攻击研究要么需要控制整个模型(不现实),要么关注联邦学习中的梯度泄露(不适用于管道并行),要么假设攻击者可以篡改传输值(容易被检测)。
- 核心矛盾:去中心化训练中恶意阶段只能访问部分模型和传输的激活值/梯度,但传统的隐私攻击需要完整模型或完整梯度。
- 本文目标:在不干扰训练过程(避免被检测)的前提下,仅通过传输的激活值重建训练数据。
- 切入角度:预训练模型和微调模型在早期层的激活值高度相似(余弦相似度接近100%),这意味着可以用预训练模型的激活构建影子数据集。
- 核心 idea:用公开的预训练模型生成影子激活-文本配对,训练生成式攻击模型学习"激活→文本"的逆映射。
方法详解¶
整体框架¶
AIA 分两步:(1) 影子数据集构建——用预训练模型(作为影子模型)在公开文本上生成激活值,构建(激活, 文本)配对;(2) 攻击模型训练——用影子数据集训练一个解码器模型,学习从激活值生成文本。推理时,将受害者训练过程中传输的激活值输入攻击模型即可重建训练数据。
关键设计¶
-
影子数据集构建:
- 功能:创建用于训练攻击模型的(激活值, 文本)配对
- 核心思路:直接从 HuggingFace 下载与受害者模型同架构的预训练模型作为影子模型,用公开数据集(如WikiText)前向传播获取指定层的激活值。关键观察:预训练模型和微调模型在相同数据上的早期层激活余弦相似度接近100%,后期层也保持50%以上。
- 设计动机:攻击者无法访问受害者的训练数据,但预训练模型的泛化性保证了激活的稳定性,无需额外训练影子模型。
-
攻击模型设计:
- 功能:学习从激活值到文本的逆映射
- 核心思路:攻击模型与受害者模型架构相同(如都是GPT2风格),由若干解码器层和 lm_head 组成,但去掉了 embedding 层——直接以激活值为输入。使用 teacher forcing 训练标准语言模型损失:\(L = -\sum_{k=1}^{N}\log P(y_k|x_1, ..., x_{k-1})\)。
- 设计动机:架构一致性是攻击成功的关键——实验表明使用不同架构(如 Mistral 或 Qwen2.5)的攻击模型困惑度飙升到数千,几乎完全失效。
-
诚实但好奇的威胁模型:
- 功能:定义攻击场景的现实约束
- 核心思路:攻击者控制管道中的一个阶段,正常参与训练(不被检测),只被动记录接收到的激活值。攻击者知道受害者模型的架构但不知道训练数据。
- 设计动机:这比篡改型攻击更难被发现,更贴近实际场景。
损失函数 / 训练策略¶
- 攻击模型:标准自回归语言模型损失(teacher forcing)
- 受害者模型微调 5 个 epoch(故意过拟合以最大化特征差距),分 6 个管道阶段
实验关键数据¶
主实验¶
| 模型 | 数据集 | PPL | ROUGE-1 | ROUGE-L | BLEU-4 | COS |
|---|---|---|---|---|---|---|
| GPT2-XL | PIIs | 3.73 | 0.84 | 0.84 | 0.59 | 0.89 |
| GPT2-XL | OpenWebText | 3.09 | 0.95 | 0.95 | 0.77 | 0.94 |
| Bloom-7B1 | PIIs | 14.82 | 0.80 | 0.80 | 0.47 | 0.89 |
| LLaMA3-8B | PIIs | 7.36 | 0.80 | 0.79 | 0.54 | 0.77 |
隐私泄露实验¶
| 模型 | 方法 | 手机号ASR | 邮箱ASR |
|---|---|---|---|
| GPT2-XL | True-Prefix | 0% | 4% |
| GPT2-XL | SPT | 0% | 2% |
| GPT2-XL | AIA | 25% | 55% |
| Bloom-7B1 | AIA | 42% | 62% |
关键发现¶
- 攻击效果与层数位置高度相关:越靠近输入层攻击越成功,越靠近输出层攻击效果下降
- 攻击效果与模型大小无关——从355M到7B参数的模型上表现稳定
- 攻击模型必须与受害者模型架构一致,否则几乎完全失效
- 生日和职业的恢复率接近100%,而比特币地址和UUID等长随机序列恢复率较低
亮点与洞察¶
- 首次揭示去中心化训练中的隐私泄露风险:这是一个重要的安全发现,随着去中心化训练的普及,这类攻击的现实威胁会越来越大。
- 预训练-微调激活相似性是攻击的核心利用点:这个观察不仅对攻击有用,也说明了微调对模型内部表示的影响比想象中更小。
- 攻击无需干扰训练过程,"诚实但好奇"的威胁模型使攻击几乎不可能被检测。
局限与展望¶
- 攻击模型必须与受害者模型架构完全一致,限制了攻击的通用性
- 生成的文本在大小写、特殊字符、低频词等方面仍有错误
- 仅测试了微调场景,预训练阶段的激活变化更大,攻击效果可能下降
- 需要开发有效的防御措施(如差分隐私、激活扰动等)
相关工作与启发¶
- vs 深度梯度泄露:在联邦学习中有效,但去中心化训练中每个阶段只有部分梯度,难以直接应用
- vs 嵌入反转攻击:假设可以访问完整训练好的模型,AIA 只需要传输的中间激活
- vs True-Prefix/SPT攻击:需要已训练好的完整模型来提示,AIA 在训练过程中就能窃取数据
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次识别去中心化训练中的隐私攻击面,攻击方法新颖且实用
- 实验充分度: ⭐⭐⭐⭐ 多模型多数据集测试,消融分析全面
- 写作质量: ⭐⭐⭐⭐ 威胁模型清晰,图示直观
- 价值: ⭐⭐⭐⭐⭐ 重要的安全发现,对去中心化训练社区有警示意义
相关论文¶
- [ACL 2025] Towards Effective and Efficient Continual Pre-training of Large Language Models
- [ACL 2025] Improving Continual Pre-training Through Seamless Data Packing
- [ACL 2025] Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation
- [ACL 2025] Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models
- [ACL 2025] DavIR: Data Selection via Implicit Reward for Large Language Models