Ensemble Watermarks for Large Language Models¶

会议: ACL 2025
arXiv: 2411.19563
代码: GitHub
领域: ai_safety
关键词: watermarking, LLM, stylometry, paraphrasing attack, acrostic

一句话总结¶

提出集成水印方法，将文体特征（藏头词 acrostic + 感觉运动词 sensorimotor norms）与已有红绿水印组合，在 paraphrasing 攻击后三特征集成检测率达 95%，而单独红绿水印仅 49%。

领域现状：LLM 水印（如 Kirchenbauer 等的红绿水印）通过修改 token 生成概率嵌入隐藏信号。
现有痛点：单一特征水印在 paraphrasing 攻击下鲁棒性差——红绿水印的检测率从高检测率直降至 ~49%。
核心矛盾：单一水印特征容易被单一攻击策略击败，缺乏冗余和多样性。
本文要解决什么？ 如何通过组合多种不同特征的水印提升鲁棒性？
切入角度：借鉴文体计量学（stylometry）中的作者识别特征，选择 acrostic（句首字母拼写秘密消息）和感觉运动词汇（偏向特定感官类别的词）作为新特征，与红绿水印集成。
核心 idea 一句话：多个正交水印特征的集成提供冗余，使得攻击者难以同时消除所有信号。

生成时通过 logit 操纵同时嵌入三种特征：(1) 红绿水印（token 级）、(2) 感觉运动词偏置（词级）、(3) 藏头词模式（句级）。检测时用统一的统计检验函数检测任意特征组合，无需修改。

藏头词特征（Acrostic）:
做什么：每个新句子的首 token 被偏置为以特定字母开头（由密钥控制）
实现：\(\text{logits}[t] += \delta_{\text{acro}} \cdot \mathbf{1}\{\text{starts\_with\_target\_letter}\}\)
特点：对困惑度影响最小，但对 paraphrasing 不太鲁棒（因句子结构易被改变）
感觉运动词特征（Sensorimotor）:
做什么：偏置生成包含特定感官类别（如嗅觉、触觉）的词
实现：基于 Lancaster Sensorimotor Norms（40K 词的 11 维感官评分），偏置属于目标类别的词
特点：对 paraphrasing 最鲁棒（>80%），因为 paraphrasing 工具难以改变感觉运动语义
密钥管理:
基于前一个词/句子的 SHA256 哈希动态生成密钥
对句子先做去停用词+词形还原处理后再哈希，增强鲁棒性
用于控制 acrostic 的目标字母和 sensorimotor 的目标类别

对每个特征计算统计检验分数，所有特征的分数可以组合用于整体判断，无需针对特征组合修改检测逻辑。