An Invariant Latent Space Perspective on Language Model Inversion¶

会议: AAAI 2026
arXiv: 2511.19569v1
代码: https://github.com/yyy01/Invariant_Attacker (有)
领域: AI安全 / LLM隐私攻击
关键词: 语言模型反演, 隐私攻击, 不变潜空间, prompt恢复, 对比学习

一句话总结¶

提出不变潜空间假说(ILSH)，将LLM反演问题重新建模为复用LLM自身潜空间，设计Inv²A框架通过轻量级逆编码器将输出映射到去噪伪表示，再由冻结的LLM解码恢复隐藏prompt，在9个数据集上BLEU平均提升4.77%且仅需20%数据量即可达到可比性能。

背景与动机¶

大语言模型(LLM)已广泛应用于各类场景，其输出被大量创建和传播。但这也带来了新的安全威胁：语言模型反演(Language Model Inversion, LMI)——即从模型输出中恢复隐藏的输入prompt。prompt作为数据资产分为两类：用户prompt（可能包含隐私信息）和系统prompt（包含专有能力和商业逻辑）。

现有的LMI方法（如Logit2text、Output2prompt）采用暴力范式：收集大量output-prompt对，训练一个外部逆模型来学习\(\mathcal{Y} \to \mathcal{X}\)映射。这种方法有两大痛点：(1) 严重依赖大规模逆向数据，采集成本高；(2) 假设模型具备稳定的OOD泛化能力，实践中常不成立。

核心问题¶

能否复用LLM自身已经学到的丰富潜空间来实现高效反演，而不是从头训练一个全新的逆模型？ LLM本身实现了从prompt到输出的前向映射 \(\mathcal{X} \to \mathcal{Z} \to \mathcal{Y}\)，如果潜空间 \(\mathcal{Z}\) 中已经隐含了逆映射信息，那么反演就可以用更少数据、更高效地实现。

方法详解¶

整体框架¶

Inv²A (Invariant Inverse Attacker) 采用编码器-解码器架构： - 输入: 一个或多个从隐藏prompt生成的输出 \(Y = \{y_i\}_{i=1}^N\) - 逆编码器 (可训练): 将输出编码为去噪伪表示 \(\mathbf{c}\) - 不变解码器 (冻结): 直接复用原始LLM \(f\)，将 \(\mathbf{c}\) 解码为恢复的prompt \(\hat{x}\) - 输出: 恢复的prompt \(\hat{x} = f(\mathbf{c})\)

核心思想是非对称往返解码：不是直接把输出喂回LLM（朴素往返只能得到4.75 BLEU），而是先通过逆编码器将输出映射到一个"干净锚点" \(\mathbf{c}\)，消除采样随机性带来的噪声，再由LLM解码。

关键设计¶

不变潜空间假说 (ILSH): 提出两个关键性质：
源不变性(Source Invariance): 同一prompt生成的不同输出应在潜空间中保持一致的语义表示
循环不变性(Cyclic Invariance): 前向映射 \(\mathcal{X} \to \mathcal{Z} \to \mathcal{Y}\) 和逆映射 \(\mathcal{Y} \to \mathcal{Z} \to \mathcal{X}\) 应在共享潜空间中自恰

作者通过实验验证了ILSH：当输出受到扰动时，逆映射的熵、条件概率和往返保真度都急剧恶化；增强前向映射时，逆映射指标同步提升。这说明LLM潜空间中已经隐含了逆映射。

半稀疏编码器 (Semi-Sparse Encoder): 系统prompt场景下有多个输出可用。朴素拼接所有输出做全局注意力的时间复杂度为 \(O(N^2 l^2)\)。作者发现跨输出的交叉注意力对反演几乎无增益，因此采用半稀疏机制——对每个 \(y_i\) 独立编码后在表示层拼接：\(\mathbf{h} = \text{Enc}(y_1) \oplus \cdots \oplus \text{Enc}(y_N)\)，将复杂度降至 \(O(Nl^2)\)。
动态过滤器 (Dynamic Filter, 可选): 针对输出本身偏差导致的失败案例，设计训练免费的后处理模块。通过提示LLM重写输出来扩展邻域空间，选择能最准确重构原输出的变体作为最优输入。采用迭代蒙特卡洛搜索扩展搜索范围，仅对低置信度样本（约15%）触发，时间开销可忽略。

损失函数 / 训练策略¶

训练分两阶段，对应ILSH的两个不变性：

阶段一：对齐 (Alignment) — 增强源不变性 - 对每个源prompt \(x\) 采样一组输出 \(\mathcal{D}_x\) 作为正样本 - 用InfoNCE损失做源感知对比学习，拉近同源输出、推远异源输出的编码器表示 - 仅训练Enc（不含Proj层），4个epoch

阶段二：强化 (Reinforcement) — 增强循环不变性 - 基于 \((Y, x)\) 对做有监督学习，最小化恢复prompt与真实prompt之间的损失 - 两阶段训练：先用20%数据热身Proj层（冻结Enc），再用80%数据联合微调Enc+Proj - 1个epoch，学习率 \(2 \times 10^{-4}\)

实验关键数据¶

场景	指标	Inv²A	Output2prompt	Few-shot(4o)	提升(vs O2p)
用户prompt (8数据集平均)	BLEU	41.78	35.34	26.75	+6.44
用户prompt	Token F1	65.89	60.20	51.66	+5.69
用户prompt	CS	82.11	77.05	75.34	+5.06
用户prompt	GPT	74.46	59.46	65.39	+15.00
系统prompt (Synthetic GPTs)	BLEU	24.34	21.25	11.00	+3.09
系统prompt	GPT	94.20	79.20	72.80	+15.00

消融实验要点¶

逆编码器是关键: 去掉编码器(w/o Enc)直接用解码器反演，BLEU从35.20暴跌至1.31（提示方式）或26.47（LoRA微调）
原始LLM解码器优于替代: 用Qwen2替换LLaMA2做解码器(w/o Raw \(f\))，BLEU降至33.38，说明原始LLM对自身输出分布的适配性更好
对比学习有效: 去掉对比学习(w/o CL)，BLEU降至33.91且方差增大
动态过滤器锦上添花: 加入1轮搜索提升至35.97 BLEU，2轮为36.06，边际收益递减
数据效率极高: Inv²A仅需20-30%训练数据即可达到Output2prompt的全量数据性能
可训练参数少: Inv²A仅训练113M参数（T5 encoder + projection），远少于baseline的222M（完整T5）

亮点¶

理论洞察新颖: ILSH假说揭示了LLM潜空间中前向映射和逆映射的耦合关系，并通过充分性和必要性实验验证。这不仅是攻击方法，更是对LLM内部表示结构的一种理解
设计简洁高效: 冻结LLM做解码器、只训练轻量级编码器，既利用了LLM强大的生成能力又大幅降低训练成本
半稀疏编码的工程巧思: 将多输出注意力从 \(O(N^2 l^2)\) 降到 \(O(Nl^2)\)，性能几乎不损失，是一个可迁移到其他多输入融合任务的trick
防御分析有深度: 不仅展示攻击强度，还系统分析了已有防御手段（多样性采样、层级噪声注入）的局限性，指出当前防御仍然不足

局限性 / 可改进方向¶

白盒假设: 需要完全获取模型参数，限制了在严格黑盒场景下的适用性（尽管开源模型和分布式推理场景满足此假设）
语义模糊prompt困难: 当prompt过于抽象或多个prompt映射到相同输出时（如"3-1"和"1+1"都产生"2"），反演准确率下降
防御探索初步: 层级噪声注入虽比采样多样化有效，但会损害前向性能（~8% BLEU下降），可用的防御手段仍然有限
长prompt表现不稳定: 当prompt长度约120词时，Output2prompt偶尔超过Inv²A
潜在扩展: 可考虑将ILSH框架推广到多模态模型反演、结合差分隐私的鲁棒反演等方向

与相关工作的对比¶

方法	核心思路	与Inv²A的关键差异
Output2prompt	训练完整T5作为外部逆模型	Inv²A复用LLM自身做解码器，数据效率提升5倍，参数量减半
Logit2text	从next-token概率分布反演	需要logit访问，性能远低于text-based方法
Jailbreak strings	设计对抗性查询诱导prompt泄露	依赖prompt在输入窗口中的特殊假设，泛化性差
DORY	基于不确定性去噪	在长复杂prompt上表现差，Inv²A通过编码器去噪更系统化

Inv²A的核心优势在于它不是从零学习逆映射，而是激活LLM已有的逆映射能力，因此数据效率和泛化性都显著更好。

启发与关联¶

这篇论文揭示了LLM潜空间的一个重要结构性质：前向映射和逆映射是耦合的。这对理解LLM的内部表示有启发意义
从防御角度看，论文指出当前主流防御（采样多样化、噪声注入）效果有限，提示需要从更根本的潜空间结构层面设计防御
半稀疏编码的思路可迁移到其他需要融合多个文本输入的任务（如多文档摘要、多轮对话理解）

评分¶

新颖性: ⭐⭐⭐⭐ ILSH假说新颖且有实验验证，但编码器-解码器架构本身不算突破性
实验充分度: ⭐⭐⭐⭐⭐ 9个数据集、多模型迁移、消融、鲁棒性、防御分析、可解释性分析，非常全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，从假说→验证→方法→实验的叙事流畅
价值: ⭐⭐⭐⭐ 对LLM隐私安全领域有实质贡献，尤其是防御不足的发现值得关注