Robust and Minimally Invasive Watermarking for EaaS¶

会议: ACL 2025 | arXiv: 2410.17552 | 代码: 无 | 领域: AI安全 | 关键词: 嵌入水印, EaaS版权保护, 模型提取攻击, 鲁棒水印, 嵌入服务

一句话总结¶

提出 ESpeW（Embedding-Specific Watermark），一种嵌入特异性水印方法，通过在每个嵌入向量的不同位置注入独特水印，实现对 Embeddings as a Service (EaaS) 的鲁棒版权保护，抵抗各种水印移除攻击且对嵌入质量的影响小于 1%。

研究背景与动机¶

1. 领域现状¶

随着 LLM 生成嵌入能力的增强，越来越多的机构提供 EaaS（如 OpenAI、Mistral、Google），用户通过 API 获取高质量嵌入向量来构建下游应用。然而 EaaS 面临严重的模型提取攻击威胁——攻击者仅需低成本访问 API 即可复制出性能相近的嵌入模型。

2. 现有痛点¶

EmbMarker（Peng et al., 2023）：通过线性插值将目标嵌入注入水印嵌入，但所有水印嵌入共享相同组件，容易被识别和消除
WARDEN（Shetty et al., 2024a）：注入多个水印增强强度，但同样存在共享组件问题
CSE 攻击（Shetty et al., 2024a）：通过检测异常样本对和消除共享主成分，可以有效移除上述水印
核心问题：现有方法的水印化嵌入具有共同方向，使水印"有迹可循"

3. 核心矛盾¶

水印需要可检测以用于版权验证，但又不能太容易被攻击者识别和移除。现有方法在水印的可检测性和抗移除性之间无法很好平衡。

4. 本文要解决什么¶

设计一种水印方法，使得水印化嵌入之间不共享公共组件（抗CSE移除），同时与目标嵌入的距离分布不偏离原始分布（抗异常检测），且对嵌入质量影响极小。

5. 切入角度¶

利用 LLM 嵌入的高维性和稀疏性，仅替换每个嵌入中绝对值最小的一小部分维度（最不重要的位置），且不同嵌入替换不同位置，使水印具有"嵌入特异性"。

6. 核心 idea 一句话¶

在每个嵌入向量中选择绝对值最小的 \(\alpha\) 比例维度替换为目标嵌入值，不同嵌入的替换位置不同，从而使水印嵌入之间无共享组件、分布不可区分。

方法详解¶

整体框架¶

ESpeW 包含两个阶段： 1. 水印注入（Watermark Injection）：在返回嵌入给用户前注入个性化水印 2. 水印验证（Watermark Verification）：通过统计假设检验验证版权

关键设计¶

水印注入¶

选择触发词集 \(T = \{t_1, t_2, ..., t_n\}\)（中等频率词）和目标嵌入 \(\boldsymbol{e}_t\)
构建位置掩码：对包含触发词的句子的嵌入 \(\boldsymbol{e}_o\)，选择绝对值最小的 \(\alpha\) 比例维度：

\[\mathcal{I}_\alpha = \text{argsort}(|\boldsymbol{e}_o|)[:\alpha|\boldsymbol{e}_o|]\]

\[\boldsymbol{M}[i] = \begin{cases} 1 & \text{if } i \in \mathcal{I}_\alpha \\ 0 & \text{otherwise} \end{cases}\]

部分替换：仅在选中位置替换为目标嵌入值：

\[\boldsymbol{e}_p' = \boldsymbol{e}_o * (1 - \boldsymbol{M}) + \boldsymbol{e}_t * \boldsymbol{M}\]

归一化：\(\boldsymbol{e}_p = \boldsymbol{e}_p' / \|\boldsymbol{e}_p'\|_2\)

核心优势： - 每个嵌入的替换位置不同（取决于各自的绝对值排序），所以水印嵌入之间无共享组件 - 只替换最小绝对值位置，对嵌入质量影响最小

水印验证¶

构建后门数据集 \(D_b\)（含触发词）和良性数据集 \(D_n\)（不含触发词），计算它们与目标嵌入的余弦相似度差异：

\[\Delta\cos = \frac{1}{|C_b|}\sum_{i \in C_b} i - \frac{1}{|C_n|}\sum_{j \in C_n} j\]

\[\Delta l_2 = \frac{1}{|L_b|}\sum_{i \in L_b} i - \frac{1}{|L_n|}\sum_{j \in L_n} j\]

使用 Kolmogorov-Smirnov (KS) 检验判断两组分布是否有显著差异，\(p\)-value \(< 10^{-4}\) 即判定为被盗版本。

训练策略¶

嵌入模型使用 OpenAI GPT-3 text-embedding-002
窃取者使用 BERT-Base-Cased + 两层 MLP
水印比例 \(\alpha\) 是唯一的超参数，推荐 15%-35%

实验关键数据¶

主实验：SST2 上不同 CSE 强度下的版权验证¶

CSE 强度 K	方法	ACC(%)	p-value↓	Δcos(%)↑	COPY?
No CSE	EmbMarker	93.46	\(<10^{-11}\)	9.71	✓
No CSE	WARDEN	94.04	\(<10^{-11}\)	12.18	✓
No CSE	ESpeW	93.46	\(<10^{-10}\)	6.46	✓
K=50	EmbMarker	90.51	>0.01	12.28	✗
K=50	WARDEN	89.85	>0.08	6.38	✗
K=50	ESpeW	86.73	\(<10^{-11}\)	65.11	✓
K=100	EmbMarker	90.19	>0.01	12.66	✗
K=100	ESpeW	84.66	\(<10^{-11}\)	64.46	✓
K=1000	EmbMarker	85.29	>0.35	-2.52	✗
K=1000	ESpeW	73.57	\(<10^{-11}\)	49.38	✓

ESpeW 是唯一在所有 CSE 强度下都能正确验证版权的方法。

嵌入质量影响¶

方法	余弦相似度变化
EmbMarker	~92-95%
WARDEN	~90-93%
ESpeW (最小幅度位置)	>99%
ESpeW (随机位置)	~98%

ESpeW 对嵌入质量的影响 <1%，远优于所有基线。

消融实验¶

\(\alpha\) 的影响（无 CSE 时）： - \(\alpha = 15\%\)：最低可成功注入水印 - \(\alpha \leq 35\%\)：PCA 可视化中水印嵌入不可区分 - \(\alpha = 100\%\)：等价于完全替换，退化为 EmbMarker

关键发现¶

CSE 强度越大，ESpeW 的检测能力越强——因为移除操作反而放大了水印信号
Dropout 攻击：除率达到 0.7-0.8 才能破坏水印，但此时嵌入本身已不可用
ESpeW 在余弦相似度分布上与非水印嵌入高度重叠，异常检测方法无法识别水印嵌入
在 SST2、MIND、AG News、Enron Spam 四个数据集上一致有效

亮点与洞察¶

"嵌入特异性"是核心创新——不同嵌入在不同位置注水印的思路很简洁但非常有效，从根本上解决了共享组件导致的可移除问题
利用高维稀疏性：LLM 嵌入中有大量接近零的维度可以被安全替换，这一观察非常实用
极简设计：只有一个超参数 \(\alpha\)，无需复杂的优化过程
反直觉结论：更强的 CSE 攻击反而使 ESpeW 的检测能力更强（因为破坏了非水印部分的嵌入质量，水印信号反而更突出）

局限性/可改进方向¶

效率瓶颈：寻找绝对值最小的 K 个位置需要排序操作，在超高维嵌入和高并发场景下可能成为计算瓶颈
目标嵌入 \(\boldsymbol{e}_t\) 需要保密——如果泄露，攻击者可能设计针对性的移除策略
仅在 GPT-3 text-embedding-002 上验证，对其他嵌入模型（如 E5、BGE）的适用性未充分探讨
随机选择水印位置可以解决效率问题，但会将嵌入质量影响从 <1% 增加到 ~2%

评分¶

新颖性: ⭐⭐⭐⭐ — 嵌入特异性水印的概念简洁而有效，充分利用高维稀疏特性
实验充分度: ⭐⭐⭐⭐⭐ — 4 个数据集、多种攻击强度、消融分析、可视化、多种抗攻击测试
写作质量: ⭐⭐⭐⭐ — 动机清晰，图表直观（分布对比图很有说服力），分析透彻
价值: ⭐⭐⭐⭐ — EaaS 版权保护是实际问题，方法简单实用且鲁棒性强