跳转至

Can LLM Watermarks Robustly Prevent Unauthorized Knowledge Distillation?

会议: ACL 2025
arXiv: 2502.11598
代码: 无
领域: 模型压缩
关键词: LLM水印, 知识蒸馏, 水印放射性, 水印去除, 对抗攻击

一句话总结

本文首次系统研究 LLM 水印在防止未授权知识蒸馏中的鲁棒性,提出三种水印去除攻击(无目标/有目标释义 + 推理时水印中和),发现有目标释义和水印中和可以彻底去除继承的水印,其中水印中和在保持知识迁移效率的同时实现零额外训练开销的水印去除。

研究背景与动机

  1. 领域现状:OpenAI、Anthropic 等主要 LLM 服务商在使用条款中禁止用其输出训练竞争模型。水印技术(如 KGW、Google 的 SynthID-Text)被视为监控未授权知识蒸馏的有前景方案:水印具有"放射性"——在水印教师模型输出上训练的学生模型会继承可检测的水印模式。
  2. 现有痛点:虽然水印放射性已被验证(p 值可低至 \(10^{-30}\)),但对抗性攻击者是否能在保持知识迁移的同时去除继承水印,这一关键安全问题尚未被系统研究。
  3. 核心矛盾:水印的设计需要鲁棒到即使被蒸馏也能被追踪,但攻击者可以利用释义模型或推理时干预来破坏水印统计特征。
  4. 本文要解决什么? 系统评估 LLM 水印作为知识产权保护机制对抗性攻击下的鲁棒性,并提出更有效的攻击方法。
  5. 切入角度:分析水印放射性的关键因素(前缀频率和窗口大小),据此设计水印窃取技术,然后利用窃取的规则进行有针对性的水印去除。
  6. 核心idea一句话:通过对比蒸馏前后学生模型的 token 概率分布来窃取水印规则,再用逆水印操作在训练数据释义或推理时解码阶段彻底去除水印。

方法详解

整体框架

假设闭源教师模型使用水印方案,攻击者(学生模型拥有者)获取教师模型的 API 输出作为训练数据。攻击分两类:(1) 蒸馏前去除——对训练数据进行无目标释义(UP)或有目标释义(TP);(2) 蒸馏后去除——推理时水印中和(WN)。TP 和 WN 都依赖于先窃取水印规则。

关键设计

  1. 水印放射性因素分析:
  2. 做什么:找出影响水印继承强度的关键因素
  3. 核心发现:(a) 前缀频率:训练数据中出现频率越高的前缀,对应的水印规则在学生模型中继承越强;稀有前缀(频率 \(\leq 5\times10^{-5}\))的放射性接近无水印水平。(b) 窗口大小 n:n 增大时放射性急剧下降,当 n=4 时即使用 100 万 token 也检测不出水印
  4. 设计动机:限制水印窃取的范围——只需关注 n≤3 和高频前缀,大幅降低计算成本

  5. 水印窃取 (Watermark Stealing):

  6. 做什么:在不知道水印方案和窗口大小的情况下提取水印规则
  7. 核心思路:对比原始学生模型 \(\mathcal{O}\) 和蒸馏后学生模型 \(\mathcal{W}\) 在相同上下文下的 token 概率分布。概率比 \(\bar{P_{\mathcal{W}}}(x_t|p) / \bar{P_{\mathcal{O}}}(x_t|p)\) 大于 1 的 token 被判定为"水印 token"。聚合多个窗口大小的结果,用前缀频率加权
  8. 设计动机:与现有方法不同,不需要事先知道水印方案或窗口大小,且根据放射性因素分析加权,更精准

  9. 无目标释义 (UP):

  10. 做什么:直接用释义模型改写训练数据
  11. 核心思路:用 Dipper 等释义模型对训练数据进行重写,不考虑水印规则
  12. 效果:部分有效但不彻底,在某些设置下仍可检测到水印

  13. 有目标释义 (TP):

  14. 做什么:在释义模型的解码阶段应用逆水印
  15. 核心思路:\(l'_\mathcal{R}(x_t|x_{1:t-1}) = l_\mathcal{R}(x_t|x_{1:t-1}) - D(x_t; x_{t-n'+1:t-1}) \cdot \delta'\),其中 D 是窃取的水印置信度,\(\delta'\) 控制逆水印强度。降低被判定为水印 token 的概率
  16. 效果:彻底去除水印,但释义过程可能损失部分知识

  17. 水印中和 (WN):

  18. 做什么:在蒸馏后的学生模型推理阶段直接中和继承的水印
  19. 核心思路:\(l'_\mathcal{W}(x_t|x_{1:t-1}) = l_\mathcal{W}(x_t|x_{1:t-1}) - D(x_t; x_{t-n'+1:t-1}) \cdot \delta'\),直接在推理时调整 logits
  20. 设计动机:不需要重新训练,不影响已蒸馏的知识,计算开销极低

损失函数 / 训练策略

UP 和 TP 需要预处理训练数据后重新训练学生模型。WN 完全在推理时操作,不涉及任何训练。学生模型的蒸馏训练使用标准的交叉熵损失。

实验关键数据

主实验

Teacher: GLM-4-9b-chat, Student: Llama-7b / Llama-3.2-1b。水印方案: KGW (n=1,2,3) + SynthID-Text (n=1,2,3)。

方法 KGW n=1 (p值) KGW n=2 (p值) SynthID n=1 (p值) SynthID n=2 (p值)
无水印基线 5.75e-01 5.75e-01 5.75e-01 5.75e-01
无攻击(直接蒸馏) 6.24e-25979 4.79e-2537 6.20e-4028 6.08e-887
UP (无目标释义) 1.17e-389 4.21e-38 2.38e-76 5.61e-01
TP (有目标释义) 3.92e-01 7.12e-01 5.23e-01 6.84e-01
WN (水印中和) 4.87e-01 6.29e-01 5.51e-01 6.71e-01

(p 值 > 0.01 表示无法检测到水印,接近 0.5 表示与无水印无异)

知识保持评估(ARC Challenge Acc / TruthfulQA Acc):

方法 ARC-C Acc ↑ TruthfulQA Acc ↑ MTBench ↑
无攻击基线 41.4 37.8 4.55
UP 38.9 36.2 4.12
TP 39.7 36.8 4.28
WN 41.2 37.6 4.51

消融实验

水印窃取准确性(KGW n=1,窃取的 green list 与真实 green list 的 F1):

配置 F1 Score
本文方法(频率加权) 0.89
无频率加权 0.76
现有方法 (需知道方案) 0.92

关键发现

  • TP 和 WN 都能彻底去除水印:p 值恢复到与无水印一致(~0.5),而 UP 仅部分有效
  • WN 在知识保持上远优于 TP/UP:ARC-C 仅下降 0.2%(vs TP 下降 1.7%,UP 下降 2.5%),因为 WN 不修改训练数据也不重新训练
  • 多源蒸馏存在水印碰撞:当学生模型从多个使用不同水印的教师模型蒸馏时,水印信号互相干扰导致都无法被检测到——这是水印保护机制的额外漏洞
  • 窗口大小 n ≥ 4 时水印本身就无法存活蒸馏:无需任何攻击,n=4 的水印自然不具有放射性

亮点与洞察

  • 水印窃取不需要知道水印方案:通过对比蒸馏前后模型的概率分布就能提取水印规则,这是比之前工作(Jovanović等)更通用的方法,对水印安全性构成更大威胁
  • 频率加权的洞察:只有高频前缀的水印规则才会被学生模型真正继承,这个发现同时指导了攻击(只需窃取高频规则)和防御(需要让所有频率的规则都具有放射性)
  • WN 的优雅性:完全不接触训练过程,仅在推理时添加一个 logit 修正项就能去除水印,这对水印保护方案是毁灭性打击

局限性 / 可改进方向

  • 仅测试了 n-gram 范式的水印方案,未覆盖非 n-gram 的水印(如基于语义的水印)
  • 水印窃取需要同时访问原始和蒸馏后的学生模型,在某些场景下原始模型可能不可得
  • 作者作为攻击者视角,未提出有效的防御方案(仅在讨论部分简略提及)
  • 实验模型规模较小(7B/1B),在更大模型上的效果有待验证

相关工作与启发

  • vs Sander et al. (2024) 水印放射性: 他们证明了放射性存在,本文证明放射性可以被攻破
  • vs Jovanović et al. 水印窃取: 之前方法需要知道水印方案和窗口大小,本文方法不需要
  • vs Google SynthID-Text: 已部署在 Gemini 中的生产级水印方案同样可以被 WN 攻破

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统研究水印放射性的鲁棒性,水印窃取和 WN 方法新颖实用
  • 实验充分度: ⭐⭐⭐⭐⭐ 2种模型对 × 2种水印方案 × 3种窗口大小 × 多基准评估,非常完整
  • 写作质量: ⭐⭐⭐⭐⭐ 攻击模型定义清晰,放射性因素分析系统深入
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 水印保护社区敲响警钟,有很高的实际影响力