跳转至

Ensemble Watermarks for Large Language Models

会议: ACL 2025
arXiv: 2411.19563
代码: GitHub
领域: ai_safety
关键词: watermarking, LLM, stylometry, paraphrasing attack, acrostic

一句话总结

提出集成水印方法,将文体特征(藏头词 acrostic + 感觉运动词 sensorimotor norms)与已有红绿水印组合,在 paraphrasing 攻击后三特征集成检测率达 95%,而单独红绿水印仅 49%。

研究背景与动机

  1. 领域现状:LLM 水印(如 Kirchenbauer 等的红绿水印)通过修改 token 生成概率嵌入隐藏信号。
  2. 现有痛点:单一特征水印在 paraphrasing 攻击下鲁棒性差——红绿水印的检测率从高检测率直降至 ~49%。
  3. 核心矛盾:单一水印特征容易被单一攻击策略击败,缺乏冗余和多样性。
  4. 本文要解决什么? 如何通过组合多种不同特征的水印提升鲁棒性?
  5. 切入角度:借鉴文体计量学(stylometry)中的作者识别特征,选择 acrostic(句首字母拼写秘密消息)和感觉运动词汇(偏向特定感官类别的词)作为新特征,与红绿水印集成。
  6. 核心 idea 一句话:多个正交水印特征的集成提供冗余,使得攻击者难以同时消除所有信号。

方法详解

整体框架

生成时通过 logit 操纵同时嵌入三种特征:(1) 红绿水印(token 级)、(2) 感觉运动词偏置(词级)、(3) 藏头词模式(句级)。检测时用统一的统计检验函数检测任意特征组合,无需修改。

关键设计

  1. 藏头词特征(Acrostic):
  2. 做什么:每个新句子的首 token 被偏置为以特定字母开头(由密钥控制)
  3. 实现:\(\text{logits}[t] += \delta_{\text{acro}} \cdot \mathbf{1}\{\text{starts\_with\_target\_letter}\}\)
  4. 特点:对困惑度影响最小,但对 paraphrasing 不太鲁棒(因句子结构易被改变)

  5. 感觉运动词特征(Sensorimotor):

  6. 做什么:偏置生成包含特定感官类别(如嗅觉、触觉)的词
  7. 实现:基于 Lancaster Sensorimotor Norms(40K 词的 11 维感官评分),偏置属于目标类别的词
  8. 特点:对 paraphrasing 最鲁棒(>80%),因为 paraphrasing 工具难以改变感觉运动语义

  9. 密钥管理:

  10. 基于前一个词/句子的 SHA256 哈希动态生成密钥
  11. 对句子先做去停用词+词形还原处理后再哈希,增强鲁棒性
  12. 用于控制 acrostic 的目标字母和 sensorimotor 的目标类别

统一检测函数

对每个特征计算统计检验分数,所有特征的分数可以组合用于整体判断,无需针对特征组合修改检测逻辑。

实验关键数据

Paraphrasing 攻击后检测率(≥10% 文本被改写)

特征组合 Llama 3.1 8B (Strong) Llama 3.2 3B (Strong)
红绿水印单独 49.14% 54.05%
感觉运动单独 80.41% 85.11%
藏头词单独 28.52% 31.39%
全部三个 95.19% 95.79%
人类文本误报 0.34% 0.97%

无攻击时检测率

  • 全特征集成在 Strong 设置下检测率 ~98%
  • 即使在 Weak 设置下也超越任何单特征的 Strong 设置

关键发现

  • 感觉运动特征对 paraphrasing 最鲁棒(80%+),红绿水印最不鲁棒(~49%)
  • 藏头词特征困惑度影响最小,但单独使用检测率低
  • 三特征集成在所有模型和强度设置下一致最优
  • 较短文本(<5 句)下集成优势更明显

亮点与洞察

  • 将文体计量学特征引入 LLM 水印是创新的跨领域融合
  • 感觉运动词特征利用了人类认知的深层语义结构,paraphrasing 工具难以消除这种语义偏置
  • 集成方法的灵活性:可根据需求选择特征组合,同一检测函数适用所有配置

局限性 / 可改进方向

  • 仅限英语(acrostic 需要拉丁字母,sensorimotor 数据库也是英语)
  • 仅在 decoder 模型(Llama、Mistral)上验证
  • 未考虑更强的攻击(如翻译攻击、重写攻击、大模型 paraphrasing)
  • 水印强度增加会提升困惑度

相关工作与启发

  • vs Kirchenbauer et al. (2023) 红绿水印: 单独使用 paraphrasing 后仅 49%,集成后 95%
  • vs Duwak: Duwak 改采样策略,本文改特征种类,思路不同
  • vs 后处理方法: logit 操纵比后处理更自然,不需要额外模型

评分

  • 新颖性: ⭐⭐⭐⭐ 文体特征+水印的跨领域融合有创意
  • 实验充分度: ⭐⭐⭐⭐ 3 模型×3 强度×多特征组合,paraphrasing 攻击评估充分
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,表格信息密度高
  • 价值: ⭐⭐⭐⭐ 对 LLM 水印鲁棒性研究有直接贡献