iSeal: Encrypted Fingerprinting for Reliable LLM Ownership Verification¶
会议: AAAI 2026
arXiv: 2511.08905
代码: kitaharasetusna/iSeal
领域: LLM安全 / 知识产权保护
关键词: LLM指纹, 所有权验证, 加密编码器, Reed-Solomon纠错, 验证鲁棒性
一句话总结¶
提出 iSeal——首个在模型窃取者完全控制推理过程的黑盒场景下仍能可靠验证 LLM 所有权的主动指纹方法,通过外部加密编码器 + RSC 纠错 + 相似度匹配三重机制,在 12 个 LLM、10+ 种攻击下均保持 100% 指纹成功率(FSR),而已有方法降至 0%。
研究背景与动机¶
- LLM 训练成本高昂:从零训练大模型需要巨额计算与资金投入,模型本身构成重要知识产权(IP),亟需可靠的所有权验证手段。
- 现实威胁场景:模型窃取者通过内部泄漏或安全漏洞获取模型权重后部署为公开 API 牟利,在诉讼等场景中窃取者完全控制模型推理过程。
- 被动指纹缺乏伪造抗性:HuRef、REEF、ProFLingo、TRAP 等被动方法不修改模型本身,任何拥有 API 访问权的人均可提取类似特征并虚假声明所有权。
- 已有主动指纹缺少外部密钥:WLM、IF 等方法将指纹仅嵌入模型权重中,窃取者拥有白盒访问即可逆向工程或移除指纹。
- 共谋遗忘攻击:在法律争议中验证者需公开至少一个 prompt-response 对,窃取者可与第三方共谋,利用该对进行定向遗忘(unlearning),使后续验证失效。
- 响应篡改攻击:窃取者可在推理时篡改输出(删词、加词、同义替换、释义等),已有方法依赖精确匹配而轻易被绕过。
方法详解¶
整体框架¶
iSeal 包含三个阶段:模型注册 → 指纹注入 → 所有权验证。
- 模型注册:模型所有者向注册机构提交请求;机构采样长度为 \(k=32\) 的十六进制密钥 \(K\)(密钥空间 \(16^{32} \approx 10^{38}\)),用 HMAC-SHA256 为编码器每层生成种子并初始化编码器 \(E\),连同选定的明文集 \(D\) 返回给所有者。
- 指纹注入:编码器 \(E\) 将明文 \(x\) 加密为密文 \(y = E(x)\),以 LLM 为解码器、用 adapter 微调(冻结编码器),训练目标为条件语言学习:\(\mathcal{M}^* = \arg\max_{\mathcal{M}} p_{\mathcal{M}}(E'(x) \mid \mathcal{M}(E(x)))\),其中 \(E'(\cdot)\) 为 RSC 编码。
- 所有权验证:法官用编码器加密明文查询嫌疑 API,对输出先做 RSC 解码 \(D'\),再与明文计算 BLEU 相似度;若超过阈值 \(\alpha\) 则判定为被盗模型。
关键设计¶
- 外部加密编码器:密钥驱动的两层线性网络作为编码器,与模型解耦——即使窃取者拥有全部模型权重也无法重建指纹。编码器冻结训练,避免学到可独立重建明文的最优表示。
- 扩散(Diffusion)与混淆(Confusion):证明编码器满足密码学扩散与混淆性质——明文任一比特变动导致约半数密文比特改变(Theorem 1),密钥任一比特变动导致超过半数密文比特改变(Theorem 2),保证有限观察无法逆向工程。
- Reed-Solomon 纠错(RSC):训练目标中对明文做 RSC 编码,验证时对 LLM 输出做 RSC 解码后再匹配,提供可证明的响应篡改容错能力。
- 相似度匹配替代精确匹配:使用 BLEU 分数而非精确字符串匹配进行验证,天然容忍微小编辑和删除。
- 防共谋机制:每次验证使用不同明文 \(z \neq x\),遗忘单个 query-response 对无法消除整个指纹映射关系。
- 未用 AES 的原因:AES 高度非线性和不连续操作导致梯度消失、语义信息破坏、收敛慢且重建质量差。
实验¶
实验设置¶
- 模型:12 个 LLM,包括 OPT-125M、LLaMA2-7B/13B、LLaMA3-7B、Mistral-7B、Amber-7B、Vicuna-v1.5-7B、RedPajama、Pythia-6.9B、GPT-J-6B、mT5-11B 等。
- 数据集:AG's News(主实验)、DailyDialog、arXiv Abstracts;Alpaca-52K 用于持久性评估。
- 基线:WLM、IF(两种代表性主动指纹方法)。
- 指标:BLEU 分数、指纹成功率(FSR)、SuperGLUE 零样本性能(无害性)。
表1:无害性评估(0-shot SuperGLUE 准确率)¶
| 方法 | LLaMA2-7B | LLaMA2-13B | Mistral-7B | Amber-7B |
|---|---|---|---|---|
| Vanilla | 59% | 60% | 64% | 54% |
| WLM | 49% | 49% | 50% | 48% |
| IF | 50% | 49% | 49% | 50% |
| iSeal | 56% | 59% | 55% | 53% |
iSeal 对模型性能的影响最小(仅下降 1-9 个百分点),显著优于 WLM 和 IF(下降 10-14 个百分点),因为 iSeal 使用非自然语言输入,对正常任务干扰更小。
表2:持久性评估(Alpaca 微调后 FSR)¶
| 方法 | LLaMA2-7B | LLaMA2-13B | Mistral-7B | Amber-7B |
|---|---|---|---|---|
| WLM | 74.7% | 76% | 73.4% | 75% |
| IF | 100% | 100% | 100% | 100% |
| iSeal | 100% | 100% | 100% | 100% |
iSeal 在所有模型上微调后均保持 100% FSR,与 IF 持平,远超 WLM。
表3:消融实验(FSR)¶
| 变体 | LLaMA2-7B | LLaMA2-13B | Mistral-7B | Amber-7B |
|---|---|---|---|---|
| iSeal(完整) | 100% | 100% | 100% | 100% |
| w/o 冻结编码器 | 0% | 0% | 0% | 0% |
| w/o 编码器(AES替代) | 0% | 0% | 2% | 1% |
去掉编码器冻结或替换为 AES 后 FSR 降至 0%,验证了两个关键设计的必要性。
鲁棒性评估¶
- 指纹猜测攻击:三种猜测策略(随机十六进制 F1、随机密钥编码器 F2、单 logit 差异密钥 F3)在 11 个模型上均为 0% FSR。
- 遗忘攻击:三种 SOTA 遗忘方法下 iSeal 保持 100% FSR,WLM/IF 在前几轮即显著下降。
- 响应篡改攻击:词删除、词添加、同义替换、释义、复制粘贴、同形字攻击等 6 种攻击下 iSeal 均保持高 FSR,基线方法大幅下降。RSC 模块进一步增强了篡改鲁棒性。
效率¶
在 LLaMA2-13B 上(A100 GPU):WLM 需 233.4 分钟收敛,IF 需 5 分钟,iSeal 同样仅需 5 分钟。编码器初始化仅需 1 毫秒(i7-9700K CPU)。
关键发现¶
- iSeal 是首个在窃取者完全控制推理过程的端到端黑盒设置下实现可靠验证的指纹方法。
- 扩散与混淆性质的密码学保证使得有限观察无法逆向工程指纹——单个 query-response 对的遗忘不影响整体指纹。
- 密钥空间 \(10^{38}\) 量级,密钥单 logit 改变即导致验证失败,从根本上杜绝所有权过度声明。
- 非自然语言输入设计使得指纹注入对模型正常能力的影响远小于已有方法。
- 阈值 \(\alpha\) 和编码器层数 \(N\) 均具有较宽的有效范围,实用中可用贝叶斯决策自动选取最优阈值。
亮点¶
- 理论+实证双重保障:扩散/混淆定理提供密码学安全证明,100% FSR 在 12 个模型 10+ 种攻击下实证验证。
- 三层防御架构:外部编码器(防逆向)+ RSC 纠错(防篡改)+ 相似度匹配(容错),各层互补。
- 实用性强:训练效率与 IF 相当(5 分钟),无额外推理开销;编码器初始化仅 1ms;代码开源。
- 威胁模型切合现实:四方参与(所有者、窃取者、法官、注册机构)的设定贴合真实 IP 诉讼场景。
局限性¶
- 仅验证基础模型:实验聚焦于基座模型而非指令微调变体,对 RLHF/DPO 后的模型是否同样有效尚未充分验证。
- 模型规模受限:最大测试至 13B,对 70B+ 或闭源超大模型的适用性未知。
- 编码器结构简单:默认两层线性网络,更强的非线性编码器可增强安全性但收敛更慢,安全性与效率的权衡待深入研究。
- BLEU 指标局限:相似度验证依赖 BLEU 分数,面对更高级的语义级篡改(如完整释义保留语义但改变表面形式)可能需要更强的语义匹配指标。
- 密钥管理假设:依赖可信的注册机构和法官,密钥泄漏或机构失信场景未讨论。
相关工作¶
- 被动指纹:HuRef(参数→人类可读图像,需白盒)、REEF/EasyDetector(白盒特征)、TRAP/ProFLingo/RAP-SM(优化后缀/前缀触发特定输出,无伪造抗性)。
- 主动指纹:WLM(触发词+预定义答案微调)、IF(指令式 prompt+adapter 注入)、PLMark(对比学习 [CLS],对 LLM 无效)、UTF(IF 简化版)、MYL(多次查询+统计检验,易被逆向)、FP-VEC(权重向量直加)、EditMark(数学题精度序列,单题遗忘即破坏)、PlugAE(优化触发 token 嵌入,易被发现)。
- 纠错码:Reed-Solomon 码用于抗响应篡改,Singleton 界证明其最优性。
- 密码学基础:Shannon 扩散与混淆原理、HMAC-SHA256 密钥派生。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将加密编码器+RSC纠错引入LLM指纹,解决验证时攻击这一此前被忽视的问题
- 实验充分度: ⭐⭐⭐⭐⭐ 12个模型、10+种攻击、多数据集、完整消融与敏感性分析
- 写作质量: ⭐⭐⭐⭐ 威胁模型和安全证明叙述清晰,表格/图表组织良好
- 价值: ⭐⭐⭐⭐ 对LLM知识产权诉讼场景有较强实用价值,开源代码促进复现