Robust and Minimally Invasive Watermarking for EaaS¶
会议: ACL 2025 | arXiv: 2410.17552 | 代码: 无 | 领域: AI安全 | 关键词: 嵌入水印, EaaS版权保护, 模型提取攻击, 鲁棒水印, 嵌入服务
一句话总结¶
提出 ESpeW(Embedding-Specific Watermark),一种嵌入特异性水印方法,通过在每个嵌入向量的不同位置注入独特水印,实现对 Embeddings as a Service (EaaS) 的鲁棒版权保护,抵抗各种水印移除攻击且对嵌入质量的影响小于 1%。
研究背景与动机¶
1. 领域现状¶
随着 LLM 生成嵌入能力的增强,越来越多的机构提供 EaaS(如 OpenAI、Mistral、Google),用户通过 API 获取高质量嵌入向量来构建下游应用。然而 EaaS 面临严重的模型提取攻击威胁——攻击者仅需低成本访问 API 即可复制出性能相近的嵌入模型。
2. 现有痛点¶
- EmbMarker(Peng et al., 2023):通过线性插值将目标嵌入注入水印嵌入,但所有水印嵌入共享相同组件,容易被识别和消除
- WARDEN(Shetty et al., 2024a):注入多个水印增强强度,但同样存在共享组件问题
- CSE 攻击(Shetty et al., 2024a):通过检测异常样本对和消除共享主成分,可以有效移除上述水印
- 核心问题:现有方法的水印化嵌入具有共同方向,使水印"有迹可循"
3. 核心矛盾¶
水印需要可检测以用于版权验证,但又不能太容易被攻击者识别和移除。现有方法在水印的可检测性和抗移除性之间无法很好平衡。
4. 本文要解决什么¶
设计一种水印方法,使得水印化嵌入之间不共享公共组件(抗CSE移除),同时与目标嵌入的距离分布不偏离原始分布(抗异常检测),且对嵌入质量影响极小。
5. 切入角度¶
利用 LLM 嵌入的高维性和稀疏性,仅替换每个嵌入中绝对值最小的一小部分维度(最不重要的位置),且不同嵌入替换不同位置,使水印具有"嵌入特异性"。
6. 核心 idea 一句话¶
在每个嵌入向量中选择绝对值最小的 \(\alpha\) 比例维度替换为目标嵌入值,不同嵌入的替换位置不同,从而使水印嵌入之间无共享组件、分布不可区分。
方法详解¶
整体框架¶
ESpeW 包含两个阶段: 1. 水印注入(Watermark Injection):在返回嵌入给用户前注入个性化水印 2. 水印验证(Watermark Verification):通过统计假设检验验证版权
关键设计¶
水印注入¶
-
选择触发词集 \(T = \{t_1, t_2, ..., t_n\}\)(中等频率词)和目标嵌入 \(\boldsymbol{e}_t\)
-
构建位置掩码:对包含触发词的句子的嵌入 \(\boldsymbol{e}_o\),选择绝对值最小的 \(\alpha\) 比例维度:
- 部分替换:仅在选中位置替换为目标嵌入值:
- 归一化:\(\boldsymbol{e}_p = \boldsymbol{e}_p' / \|\boldsymbol{e}_p'\|_2\)
核心优势: - 每个嵌入的替换位置不同(取决于各自的绝对值排序),所以水印嵌入之间无共享组件 - 只替换最小绝对值位置,对嵌入质量影响最小
水印验证¶
构建后门数据集 \(D_b\)(含触发词)和良性数据集 \(D_n\)(不含触发词),计算它们与目标嵌入的余弦相似度差异:
使用 Kolmogorov-Smirnov (KS) 检验判断两组分布是否有显著差异,\(p\)-value \(< 10^{-4}\) 即判定为被盗版本。
训练策略¶
- 嵌入模型使用 OpenAI GPT-3 text-embedding-002
- 窃取者使用 BERT-Base-Cased + 两层 MLP
- 水印比例 \(\alpha\) 是唯一的超参数,推荐 15%-35%
实验关键数据¶
主实验:SST2 上不同 CSE 强度下的版权验证¶
| CSE 强度 K | 方法 | ACC(%) | p-value↓ | Δcos(%)↑ | COPY? |
|---|---|---|---|---|---|
| No CSE | EmbMarker | 93.46 | \(<10^{-11}\) | 9.71 | ✓ |
| No CSE | WARDEN | 94.04 | \(<10^{-11}\) | 12.18 | ✓ |
| No CSE | ESpeW | 93.46 | \(<10^{-10}\) | 6.46 | ✓ |
| K=50 | EmbMarker | 90.51 | >0.01 | 12.28 | ✗ |
| K=50 | WARDEN | 89.85 | >0.08 | 6.38 | ✗ |
| K=50 | ESpeW | 86.73 | \(<10^{-11}\) | 65.11 | ✓ |
| K=100 | EmbMarker | 90.19 | >0.01 | 12.66 | ✗ |
| K=100 | ESpeW | 84.66 | \(<10^{-11}\) | 64.46 | ✓ |
| K=1000 | EmbMarker | 85.29 | >0.35 | -2.52 | ✗ |
| K=1000 | ESpeW | 73.57 | \(<10^{-11}\) | 49.38 | ✓ |
ESpeW 是唯一在所有 CSE 强度下都能正确验证版权的方法。
嵌入质量影响¶
| 方法 | 余弦相似度变化 |
|---|---|
| EmbMarker | ~92-95% |
| WARDEN | ~90-93% |
| ESpeW (最小幅度位置) | >99% |
| ESpeW (随机位置) | ~98% |
ESpeW 对嵌入质量的影响 <1%,远优于所有基线。
消融实验¶
\(\alpha\) 的影响(无 CSE 时): - \(\alpha = 15\%\):最低可成功注入水印 - \(\alpha \leq 35\%\):PCA 可视化中水印嵌入不可区分 - \(\alpha = 100\%\):等价于完全替换,退化为 EmbMarker
关键发现¶
- CSE 强度越大,ESpeW 的检测能力越强——因为移除操作反而放大了水印信号
- Dropout 攻击:除率达到 0.7-0.8 才能破坏水印,但此时嵌入本身已不可用
- ESpeW 在余弦相似度分布上与非水印嵌入高度重叠,异常检测方法无法识别水印嵌入
- 在 SST2、MIND、AG News、Enron Spam 四个数据集上一致有效
亮点与洞察¶
- "嵌入特异性"是核心创新——不同嵌入在不同位置注水印的思路很简洁但非常有效,从根本上解决了共享组件导致的可移除问题
- 利用高维稀疏性:LLM 嵌入中有大量接近零的维度可以被安全替换,这一观察非常实用
- 极简设计:只有一个超参数 \(\alpha\),无需复杂的优化过程
- 反直觉结论:更强的 CSE 攻击反而使 ESpeW 的检测能力更强(因为破坏了非水印部分的嵌入质量,水印信号反而更突出)
局限性/可改进方向¶
- 效率瓶颈:寻找绝对值最小的 K 个位置需要排序操作,在超高维嵌入和高并发场景下可能成为计算瓶颈
- 目标嵌入 \(\boldsymbol{e}_t\) 需要保密——如果泄露,攻击者可能设计针对性的移除策略
- 仅在 GPT-3 text-embedding-002 上验证,对其他嵌入模型(如 E5、BGE)的适用性未充分探讨
- 随机选择水印位置可以解决效率问题,但会将嵌入质量影响从 <1% 增加到 ~2%
相关工作与启发¶
- EmbMarker(Peng et al., 2023):ESpeW 的直接改进对象,全局线性插值→部分替换
- CSE 攻击(Shetty et al., 2024a):ESpeW 专门针对的水印移除方法
- 模型提取攻击(Liu et al., 2022):EaaS 版权保护研究的威胁模型
- 启发:在嵌入空间中利用稀疏性进行信息隐藏的思路,可能推广到其他嵌入保护场景(如 RAG 系统中的知识库保护)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 嵌入特异性水印的概念简洁而有效,充分利用高维稀疏特性
- 实验充分度: ⭐⭐⭐⭐⭐ — 4 个数据集、多种攻击强度、消融分析、可视化、多种抗攻击测试
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,图表直观(分布对比图很有说服力),分析透彻
- 价值: ⭐⭐⭐⭐ — EaaS 版权保护是实际问题,方法简单实用且鲁棒性强