跳转至

An Invariant Latent Space Perspective on Language Model Inversion

会议: AAAI 2026
arXiv: 2511.19569v1
代码: https://github.com/yyy01/Invariant_Attacker (有)
领域: AI安全 / LLM隐私攻击
关键词: 语言模型反演, 隐私攻击, 不变潜空间, prompt恢复, 对比学习

一句话总结

提出不变潜空间假说(ILSH),将LLM反演问题重新建模为复用LLM自身潜空间,设计Inv²A框架通过轻量级逆编码器将输出映射到去噪伪表示,再由冻结的LLM解码恢复隐藏prompt,在9个数据集上BLEU平均提升4.77%且仅需20%数据量即可达到可比性能。

背景与动机

大语言模型(LLM)已广泛应用于各类场景,其输出被大量创建和传播。但这也带来了新的安全威胁:语言模型反演(Language Model Inversion, LMI)——即从模型输出中恢复隐藏的输入prompt。prompt作为数据资产分为两类:用户prompt(可能包含隐私信息)和系统prompt(包含专有能力和商业逻辑)。

现有的LMI方法(如Logit2text、Output2prompt)采用暴力范式:收集大量output-prompt对,训练一个外部逆模型来学习\(\mathcal{Y} \to \mathcal{X}\)映射。这种方法有两大痛点:(1) 严重依赖大规模逆向数据,采集成本高;(2) 假设模型具备稳定的OOD泛化能力,实践中常不成立。

核心问题

能否复用LLM自身已经学到的丰富潜空间来实现高效反演,而不是从头训练一个全新的逆模型? LLM本身实现了从prompt到输出的前向映射 \(\mathcal{X} \to \mathcal{Z} \to \mathcal{Y}\),如果潜空间 \(\mathcal{Z}\) 中已经隐含了逆映射信息,那么反演就可以用更少数据、更高效地实现。

方法详解

整体框架

Inv²A (Invariant Inverse Attacker) 采用编码器-解码器架构: - 输入: 一个或多个从隐藏prompt生成的输出 \(Y = \{y_i\}_{i=1}^N\) - 逆编码器 (可训练): 将输出编码为去噪伪表示 \(\mathbf{c}\) - 不变解码器 (冻结): 直接复用原始LLM \(f\),将 \(\mathbf{c}\) 解码为恢复的prompt \(\hat{x}\) - 输出: 恢复的prompt \(\hat{x} = f(\mathbf{c})\)

核心思想是非对称往返解码:不是直接把输出喂回LLM(朴素往返只能得到4.75 BLEU),而是先通过逆编码器将输出映射到一个"干净锚点" \(\mathbf{c}\),消除采样随机性带来的噪声,再由LLM解码。

关键设计

  1. 不变潜空间假说 (ILSH): 提出两个关键性质:
  2. 源不变性(Source Invariance): 同一prompt生成的不同输出应在潜空间中保持一致的语义表示
  3. 循环不变性(Cyclic Invariance): 前向映射 \(\mathcal{X} \to \mathcal{Z} \to \mathcal{Y}\) 和逆映射 \(\mathcal{Y} \to \mathcal{Z} \to \mathcal{X}\) 应在共享潜空间中自恰

作者通过实验验证了ILSH:当输出受到扰动时,逆映射的熵、条件概率和往返保真度都急剧恶化;增强前向映射时,逆映射指标同步提升。这说明LLM潜空间中已经隐含了逆映射。

  1. 半稀疏编码器 (Semi-Sparse Encoder): 系统prompt场景下有多个输出可用。朴素拼接所有输出做全局注意力的时间复杂度为 \(O(N^2 l^2)\)。作者发现跨输出的交叉注意力对反演几乎无增益,因此采用半稀疏机制——对每个 \(y_i\) 独立编码后在表示层拼接:\(\mathbf{h} = \text{Enc}(y_1) \oplus \cdots \oplus \text{Enc}(y_N)\),将复杂度降至 \(O(Nl^2)\)

  2. 动态过滤器 (Dynamic Filter, 可选): 针对输出本身偏差导致的失败案例,设计训练免费的后处理模块。通过提示LLM重写输出来扩展邻域空间,选择能最准确重构原输出的变体作为最优输入。采用迭代蒙特卡洛搜索扩展搜索范围,仅对低置信度样本(约15%)触发,时间开销可忽略。

损失函数 / 训练策略

训练分两阶段,对应ILSH的两个不变性:

阶段一:对齐 (Alignment) — 增强源不变性 - 对每个源prompt \(x\) 采样一组输出 \(\mathcal{D}_x\) 作为正样本 - 用InfoNCE损失做源感知对比学习,拉近同源输出、推远异源输出的编码器表示 - 仅训练Enc(不含Proj层),4个epoch

阶段二:强化 (Reinforcement) — 增强循环不变性 - 基于 \((Y, x)\) 对做有监督学习,最小化恢复prompt与真实prompt之间的损失 - 两阶段训练:先用20%数据热身Proj层(冻结Enc),再用80%数据联合微调Enc+Proj - 1个epoch,学习率 \(2 \times 10^{-4}\)

实验关键数据

场景 指标 Inv²A Output2prompt Few-shot(4o) 提升(vs O2p)
用户prompt (8数据集平均) BLEU 41.78 35.34 26.75 +6.44
用户prompt Token F1 65.89 60.20 51.66 +5.69
用户prompt CS 82.11 77.05 75.34 +5.06
用户prompt GPT 74.46 59.46 65.39 +15.00
系统prompt (Synthetic GPTs) BLEU 24.34 21.25 11.00 +3.09
系统prompt GPT 94.20 79.20 72.80 +15.00

消融实验要点

  • 逆编码器是关键: 去掉编码器(w/o Enc)直接用解码器反演,BLEU从35.20暴跌至1.31(提示方式)或26.47(LoRA微调)
  • 原始LLM解码器优于替代: 用Qwen2替换LLaMA2做解码器(w/o Raw \(f\)),BLEU降至33.38,说明原始LLM对自身输出分布的适配性更好
  • 对比学习有效: 去掉对比学习(w/o CL),BLEU降至33.91且方差增大
  • 动态过滤器锦上添花: 加入1轮搜索提升至35.97 BLEU,2轮为36.06,边际收益递减
  • 数据效率极高: Inv²A仅需20-30%训练数据即可达到Output2prompt的全量数据性能
  • 可训练参数少: Inv²A仅训练113M参数(T5 encoder + projection),远少于baseline的222M(完整T5)

亮点

  • 理论洞察新颖: ILSH假说揭示了LLM潜空间中前向映射和逆映射的耦合关系,并通过充分性和必要性实验验证。这不仅是攻击方法,更是对LLM内部表示结构的一种理解
  • 设计简洁高效: 冻结LLM做解码器、只训练轻量级编码器,既利用了LLM强大的生成能力又大幅降低训练成本
  • 半稀疏编码的工程巧思: 将多输出注意力从 \(O(N^2 l^2)\) 降到 \(O(Nl^2)\),性能几乎不损失,是一个可迁移到其他多输入融合任务的trick
  • 防御分析有深度: 不仅展示攻击强度,还系统分析了已有防御手段(多样性采样、层级噪声注入)的局限性,指出当前防御仍然不足

局限性 / 可改进方向

  • 白盒假设: 需要完全获取模型参数,限制了在严格黑盒场景下的适用性(尽管开源模型和分布式推理场景满足此假设)
  • 语义模糊prompt困难: 当prompt过于抽象或多个prompt映射到相同输出时(如"3-1"和"1+1"都产生"2"),反演准确率下降
  • 防御探索初步: 层级噪声注入虽比采样多样化有效,但会损害前向性能(~8% BLEU下降),可用的防御手段仍然有限
  • 长prompt表现不稳定: 当prompt长度约120词时,Output2prompt偶尔超过Inv²A
  • 潜在扩展: 可考虑将ILSH框架推广到多模态模型反演、结合差分隐私的鲁棒反演等方向

与相关工作的对比

方法 核心思路 与Inv²A的关键差异
Output2prompt 训练完整T5作为外部逆模型 Inv²A复用LLM自身做解码器,数据效率提升5倍,参数量减半
Logit2text 从next-token概率分布反演 需要logit访问,性能远低于text-based方法
Jailbreak strings 设计对抗性查询诱导prompt泄露 依赖prompt在输入窗口中的特殊假设,泛化性差
DORY 基于不确定性去噪 在长复杂prompt上表现差,Inv²A通过编码器去噪更系统化

Inv²A的核心优势在于它不是从零学习逆映射,而是激活LLM已有的逆映射能力,因此数据效率和泛化性都显著更好。

启发与关联

  • 这篇论文揭示了LLM潜空间的一个重要结构性质:前向映射和逆映射是耦合的。这对理解LLM的内部表示有启发意义
  • 从防御角度看,论文指出当前主流防御(采样多样化、噪声注入)效果有限,提示需要从更根本的潜空间结构层面设计防御
  • 半稀疏编码的思路可迁移到其他需要融合多个文本输入的任务(如多文档摘要、多轮对话理解)

评分

  • 新颖性: ⭐⭐⭐⭐ ILSH假说新颖且有实验验证,但编码器-解码器架构本身不算突破性
  • 实验充分度: ⭐⭐⭐⭐⭐ 9个数据集、多模型迁移、消融、鲁棒性、防御分析、可解释性分析,非常全面
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,从假说→验证→方法→实验的叙事流畅
  • 价值: ⭐⭐⭐⭐ 对LLM隐私安全领域有实质贡献,尤其是防御不足的发现值得关注