跳转至

Robust Data Watermarking in Language Models by Injecting Fictitious Knowledge

会议: ACL 2025 | arXiv: 2503.04036 | 代码: GitHub (有) | 领域: AI安全 | 关键词: 数据水印, 虚构知识, 训练数据溯源, 版权保护, 预训练安全

一句话总结

提出一种基于虚构知识(Fictitious Knowledge)的数据水印方法,通过在训练数据中注入虚构但合理的实体及其属性描述,实现对 LLM 训练数据所有权的可追溯验证,水印抗数据预处理过滤且支持黑盒 QA 验证。

研究背景与动机

1. 领域现状

LLM 的训练高度依赖从公共网络来源收集的海量数据,但这些数据的使用往往缺乏明确的版权声明(如 NYT 诉讼案件)。数据水印作为一种追踪训练数据所有权的技术方案受到关注——在版权文本中嵌入可追踪信号,通过模型的记忆化来验证数据是否被用于训练。

2. 现有痛点

  • 随机序列水印(Wei et al., 2024):注入 SHA hash 等随机字符串,容易被 n-gram 频率分析检测
  • 模板化文本水印(Meeus et al., 2024):重复注入相同自然语言文本,被精确去重过滤器直接移除
  • 模糊水印(Shilov et al., 2024):对同一文本做微小扰动,虽能绕过精确去重,但 n-gram 分布仍与训练数据有显著偏差
  • 闭源模型验证困难:许多商业 LLM 仅提供 API 访问,不暴露 logits,基于损失的水印验证不可行

3. 核心矛盾

水印要被模型记忆就需要足够重复(提高记忆强度),但高重复使水印容易被去重预处理过滤器检测和移除。语言多样性和记忆强度之间存在根本性矛盾。

4. 本文要解决什么

设计一种水印方法,能够在语言多样性(抗过滤)、记忆强度(有效性)和黑盒可验证性(实用性)三者之间取得平衡。

5. 切入角度

利用 LLM 记忆事实知识(而非固定文本模式)的能力——注入虚构但合理的实体及其属性,LLM 会将其作为新知识记忆,而非依赖表面模式重复。

6. 核心 idea 一句话

从 FrameNet 采样语义框架生成虚构实体及属性,用 LLM 生成多样化的描述文档作为水印,通过事实 QA 验证水印存在性而非依赖 logits。

方法详解

整体框架

  1. 水印构造:从 FrameNet 采样框架→生成虚构实体→分配属性→生成描述文档
  2. 水印注入:将生成的文档注入训练数据
  3. 水印验证:通过假设检验(loss-based 或 QA-based)验证模型是否记忆了水印

关键设计

模块一:虚构知识水印构造

以 "Heritage Pie" 为例: - 框架:FOOD(从 FrameNet 采样) - 实体名:Heritage Pie(由 GPT-4o-mini 生成的虚构但合理的名字) - 属性:Country=Argentina, Protein=Pheasant, Vegetable=Okra, Fruit=Papaya - 文档:由 Llama-3.1-8B-Instruct 生成描述该虚构实体的自然语言段落

关键约束:排除高风险领域(法律、医学)以避免伦理问题。

模块二:假设检验评估记忆强度

比较模型在水印事实上的 loss 与 1000 个控制事实的 loss 分布。控制事实通过替换目标属性生成(如 "Heritage Pie is from France")。

\[z = \frac{\text{loss}_{\text{watermark}} - \mu_{\text{random}}}{\sigma_{\text{random}}}\]

\(z < -1.7\) 表示统计显著(对应 \(p < 0.05\) 的单尾检验)。\(z\) 越低表示记忆越强。

模块三:QA-based 黑盒验证

对后训练模型,直接用 TriviaQA 格式提问虚构事实: - 问模型 "Heritage Pie 的原产国是哪里?" - 检查模型是否回答 "Argentina" - 对每个属性分别测量准确率,与随机猜测分布进行假设检验 - 重复 100 次(不同随机种子)确保稳定性

训练策略

  • 默认使用 Pythia-160M 从头训练,100M tokens + Dolma 数据集
  • 每个水印文档 200 words,单 epoch 训练
  • 大模型实验:OLMo-7B 和 Llama-3.1-8B 持续预训练

实验关键数据

水印设计因素分析

注入数量和长度: - 256 个文档即可达到统计显著(\(z < -1.7\)),仅占训练数据 <0.1% - 较长水印收敛更快(更少注入即达显著)

属性数量: - 4 个独立属性比 1 个属性的水印强度高出约 2 个 z-score 单位 - 更高信息密度 → 更好的记忆化

语言多样性

多样性级别 z-score (256 注入)
相同文档 ~-6
释义变体 ~-5
独立生成 (默认) ~-4
多风格生成 ~-3.5

多样性越高,水印略弱但更隐蔽。增加注入量可弥补。

抗过滤实验

水印类型 精确去重 模糊去重 对抗性过滤
随机序列 ✓ 通过 ✓ 通过 ✗ 被检测
模板化文本 ✗ 半数被移除 ✓ 通过 ✗ 被检测
模糊文本 ✓ 通过 ✓ 通过 ✗ 被检测
虚构知识(Ours) ✓ 通过 ✓ 通过 ✓ 通过

虚构知识水印是唯一能通过所有过滤器的方法。关键原因:其 n-gram 频率和 loss 分布与正常训练数据高度重合(图 10)。

后训练鲁棒性

模型 Loss z-score QA 准确率 QA z-score
OLMo+CP -5.734 / /
OLMo+CP+SFT -4.6 0.765 15.78
Llama+CP -5.151 / /
Llama+CP+SFT -4.83 0.693 14.81

水印经过持续预训练和指令调优后仍然有效。QA z-score > 14 表示极强的统计信号。

关键发现

  1. 虚构知识水印的 n-gram 分布与训练数据几乎完全重合,使对抗性过滤失效
  2. 少量注入即可生效:256 次注入(<0.1% 训练数据)足以达到统计显著
  3. QA 验证在黑盒场景下具有更强的统计功效(z-score > 14 vs loss-based 的 z-score ~-5)
  4. 水印领域的影响在少量注入时显著,但在大量注入时趋于一致
  5. 注入策略(独立文档 vs 嵌入现有文档)对水印强度几乎无影响

亮点与洞察

  1. "知识记忆"取代"模式记忆"是核心突破——LLM 擅长记忆事实知识,利用这一特性使水印自然融入训练数据
  2. FrameNet → GPT-4o-mini → Llama 的多级生成流水线设计精巧,确保虚构知识的合理性和多样性
  3. QA-based 黑盒验证是重要的实用创新——解决了闭源模型无法获取 logits 的核心限制
  4. 对抗性过滤分析首次系统性地评估了各类水印对 n-gram 频率+loss 的分布异常,提出了有效的攻击范式

局限性/可改进方向

  1. 代理评估:大规模实验使用持续预训练代替从头训练,可能无法完全模拟真实训练动态
  2. 伦理风险:注入虚构信息可能影响数据质量,虽然论文声称仅影响未授权使用者
  3. 未测试最新的大模型(如 GPT-4、Claude)是否同样能被这类水印有效标记
  4. 水印的属性选择和验证依赖于 FrameNet 的框架定义,可能限制水印的适用范围

相关工作与启发

  • Wei et al., 2024:随机序列水印,本文的直接对比基线和假设检验框架来源
  • Meeus et al., 2024:模板化文本水印,验证了"知识多样性 vs 文本重复"的权衡
  • Shilov et al., 2024:模糊水印,启发了本文对过滤鲁棒性的更深入分析
  • Kandpal et al., 2022:LLM 可以从少量出现中记忆长尾知识,支撑了水印方法的可扩展性
  • 启发:虚构知识注入的思路可延伸到数据来源追踪、版权保护合规工具等应用场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 虚构知识作为水印的想法新颖且优雅,exploitation of knowledge memorization 视角独到
  • 实验充分度: ⭐⭐⭐⭐⭐ — 设计因素分析、过滤鲁棒性、后训练鲁棒性、规模扩展,实验链条完整
  • 写作质量: ⭐⭐⭐⭐⭐ — 问题定义清晰,实验组织逻辑性强,图表丰富且有说服力
  • 价值: ⭐⭐⭐⭐⭐ — 直接解决训练数据版权保护的核心挑战,方法实用且可扩展