跳转至

Robust and Minimally Invasive Watermarking for EaaS

会议: ACL 2025 | arXiv: 2410.17552 | 代码: 无 | 领域: AI安全 | 关键词: 嵌入水印, EaaS版权保护, 模型提取攻击, 鲁棒水印, 嵌入服务

一句话总结

提出 ESpeW(Embedding-Specific Watermark),一种嵌入特异性水印方法,通过在每个嵌入向量的不同位置注入独特水印,实现对 Embeddings as a Service (EaaS) 的鲁棒版权保护,抵抗各种水印移除攻击且对嵌入质量的影响小于 1%。

研究背景与动机

1. 领域现状

随着 LLM 生成嵌入能力的增强,越来越多的机构提供 EaaS(如 OpenAI、Mistral、Google),用户通过 API 获取高质量嵌入向量来构建下游应用。然而 EaaS 面临严重的模型提取攻击威胁——攻击者仅需低成本访问 API 即可复制出性能相近的嵌入模型。

2. 现有痛点

  • EmbMarker(Peng et al., 2023):通过线性插值将目标嵌入注入水印嵌入,但所有水印嵌入共享相同组件,容易被识别和消除
  • WARDEN(Shetty et al., 2024a):注入多个水印增强强度,但同样存在共享组件问题
  • CSE 攻击(Shetty et al., 2024a):通过检测异常样本对和消除共享主成分,可以有效移除上述水印
  • 核心问题:现有方法的水印化嵌入具有共同方向,使水印"有迹可循"

3. 核心矛盾

水印需要可检测以用于版权验证,但又不能太容易被攻击者识别和移除。现有方法在水印的可检测性和抗移除性之间无法很好平衡。

4. 本文要解决什么

设计一种水印方法,使得水印化嵌入之间不共享公共组件(抗CSE移除),同时与目标嵌入的距离分布不偏离原始分布(抗异常检测),且对嵌入质量影响极小。

5. 切入角度

利用 LLM 嵌入的高维性和稀疏性,仅替换每个嵌入中绝对值最小的一小部分维度(最不重要的位置),且不同嵌入替换不同位置,使水印具有"嵌入特异性"。

6. 核心 idea 一句话

在每个嵌入向量中选择绝对值最小的 \(\alpha\) 比例维度替换为目标嵌入值,不同嵌入的替换位置不同,从而使水印嵌入之间无共享组件、分布不可区分。

方法详解

整体框架

ESpeW 包含两个阶段: 1. 水印注入(Watermark Injection):在返回嵌入给用户前注入个性化水印 2. 水印验证(Watermark Verification):通过统计假设检验验证版权

关键设计

水印注入

  1. 选择触发词集 \(T = \{t_1, t_2, ..., t_n\}\)(中等频率词)和目标嵌入 \(\boldsymbol{e}_t\)

  2. 构建位置掩码:对包含触发词的句子的嵌入 \(\boldsymbol{e}_o\),选择绝对值最小的 \(\alpha\) 比例维度:

\[\mathcal{I}_\alpha = \text{argsort}(|\boldsymbol{e}_o|)[:\alpha|\boldsymbol{e}_o|]\]
\[\boldsymbol{M}[i] = \begin{cases} 1 & \text{if } i \in \mathcal{I}_\alpha \\ 0 & \text{otherwise} \end{cases}\]
  1. 部分替换:仅在选中位置替换为目标嵌入值:
\[\boldsymbol{e}_p' = \boldsymbol{e}_o * (1 - \boldsymbol{M}) + \boldsymbol{e}_t * \boldsymbol{M}\]
  1. 归一化\(\boldsymbol{e}_p = \boldsymbol{e}_p' / \|\boldsymbol{e}_p'\|_2\)

核心优势: - 每个嵌入的替换位置不同(取决于各自的绝对值排序),所以水印嵌入之间无共享组件 - 只替换最小绝对值位置,对嵌入质量影响最小

水印验证

构建后门数据集 \(D_b\)(含触发词)和良性数据集 \(D_n\)(不含触发词),计算它们与目标嵌入的余弦相似度差异:

\[\Delta\cos = \frac{1}{|C_b|}\sum_{i \in C_b} i - \frac{1}{|C_n|}\sum_{j \in C_n} j\]
\[\Delta l_2 = \frac{1}{|L_b|}\sum_{i \in L_b} i - \frac{1}{|L_n|}\sum_{j \in L_n} j\]

使用 Kolmogorov-Smirnov (KS) 检验判断两组分布是否有显著差异,\(p\)-value \(< 10^{-4}\) 即判定为被盗版本。

训练策略

  • 嵌入模型使用 OpenAI GPT-3 text-embedding-002
  • 窃取者使用 BERT-Base-Cased + 两层 MLP
  • 水印比例 \(\alpha\) 是唯一的超参数,推荐 15%-35%

实验关键数据

主实验:SST2 上不同 CSE 强度下的版权验证

CSE 强度 K 方法 ACC(%) p-value↓ Δcos(%)↑ COPY?
No CSE EmbMarker 93.46 \(<10^{-11}\) 9.71
No CSE WARDEN 94.04 \(<10^{-11}\) 12.18
No CSE ESpeW 93.46 \(<10^{-10}\) 6.46
K=50 EmbMarker 90.51 >0.01 12.28
K=50 WARDEN 89.85 >0.08 6.38
K=50 ESpeW 86.73 \(<10^{-11}\) 65.11
K=100 EmbMarker 90.19 >0.01 12.66
K=100 ESpeW 84.66 \(<10^{-11}\) 64.46
K=1000 EmbMarker 85.29 >0.35 -2.52
K=1000 ESpeW 73.57 \(<10^{-11}\) 49.38

ESpeW 是唯一在所有 CSE 强度下都能正确验证版权的方法。

嵌入质量影响

方法 余弦相似度变化
EmbMarker ~92-95%
WARDEN ~90-93%
ESpeW (最小幅度位置) >99%
ESpeW (随机位置) ~98%

ESpeW 对嵌入质量的影响 <1%,远优于所有基线。

消融实验

\(\alpha\) 的影响(无 CSE 时): - \(\alpha = 15\%\):最低可成功注入水印 - \(\alpha \leq 35\%\):PCA 可视化中水印嵌入不可区分 - \(\alpha = 100\%\):等价于完全替换,退化为 EmbMarker

关键发现

  1. CSE 强度越大,ESpeW 的检测能力越强——因为移除操作反而放大了水印信号
  2. Dropout 攻击:除率达到 0.7-0.8 才能破坏水印,但此时嵌入本身已不可用
  3. ESpeW 在余弦相似度分布上与非水印嵌入高度重叠,异常检测方法无法识别水印嵌入
  4. 在 SST2、MIND、AG News、Enron Spam 四个数据集上一致有效

亮点与洞察

  1. "嵌入特异性"是核心创新——不同嵌入在不同位置注水印的思路很简洁但非常有效,从根本上解决了共享组件导致的可移除问题
  2. 利用高维稀疏性:LLM 嵌入中有大量接近零的维度可以被安全替换,这一观察非常实用
  3. 极简设计:只有一个超参数 \(\alpha\),无需复杂的优化过程
  4. 反直觉结论:更强的 CSE 攻击反而使 ESpeW 的检测能力更强(因为破坏了非水印部分的嵌入质量,水印信号反而更突出)

局限性/可改进方向

  1. 效率瓶颈:寻找绝对值最小的 K 个位置需要排序操作,在超高维嵌入和高并发场景下可能成为计算瓶颈
  2. 目标嵌入 \(\boldsymbol{e}_t\) 需要保密——如果泄露,攻击者可能设计针对性的移除策略
  3. 仅在 GPT-3 text-embedding-002 上验证,对其他嵌入模型(如 E5、BGE)的适用性未充分探讨
  4. 随机选择水印位置可以解决效率问题,但会将嵌入质量影响从 <1% 增加到 ~2%

相关工作与启发

  • EmbMarker(Peng et al., 2023):ESpeW 的直接改进对象,全局线性插值→部分替换
  • CSE 攻击(Shetty et al., 2024a):ESpeW 专门针对的水印移除方法
  • 模型提取攻击(Liu et al., 2022):EaaS 版权保护研究的威胁模型
  • 启发:在嵌入空间中利用稀疏性进行信息隐藏的思路,可能推广到其他嵌入保护场景(如 RAG 系统中的知识库保护)

评分

  • 新颖性: ⭐⭐⭐⭐ — 嵌入特异性水印的概念简洁而有效,充分利用高维稀疏特性
  • 实验充分度: ⭐⭐⭐⭐⭐ — 4 个数据集、多种攻击强度、消融分析、可视化、多种抗攻击测试
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,图表直观(分布对比图很有说服力),分析透彻
  • 价值: ⭐⭐⭐⭐ — EaaS 版权保护是实际问题,方法简单实用且鲁棒性强