Topic-Based Watermarks for Large Language Models¶
会议: ACL 2026
arXiv: 2404.02138
代码: GitHub
领域: AI安全 / 文本水印
关键词: 文本水印, 主题对齐, 语义分区, 释义鲁棒性, 轻量检测
一句话总结¶
本文提出基于主题的轻量水印方案 TBW,将词表按语义主题聚类为"绿色列表"(而非随机分区),根据输入提示选择语义对齐的主题列表进行 logit 偏置,在保持与无水印文本相当的困惑度的同时,显著提升了对释义和词汇扰动攻击的鲁棒性。
研究背景与动机¶
领域现状:LLM 生成的文本几乎与人类写作无法区分,带来了错误信息传播、版权侵权和模型坍缩(AI 训练 AI)等风险。水印技术通过在生成过程中嵌入可检测签名来标识 AI 生成文本。主流方法 KGW 将词表随机划分为"绿色"/"红色"列表,偏置采样倾向绿色 token。
现有痛点:(1) 随机分区的脆弱性:KGW 的随机划分使绿色列表中的 token 与当前语义上下文无关,攻击者通过释义即可大幅降低绿色 token 比例;(2) 质量-鲁棒性权衡:计算密集的方法(EXP-Edit、ITS-Edit)通过多次解码提升鲁棒性但严重增加延迟;SynthID 等轻量方法虽然高效但抗释义能力弱;(3) 语义水印方案的部署障碍:SIR 等引入语义信息的方法需要解码器修改或提示访问,阻碍了在大规模商业 LLM 中的部署。
核心矛盾:现有方法在鲁棒性、文本质量和计算效率三者之间难以兼顾——轻量方法抗攻击弱,鲁棒方法计算贵且降低文本质量。
本文目标:设计一种轻量的语义感知水印方案,在不增加显著计算开销的前提下,同时提升鲁棒性和文本质量。
切入角度:将语义信息引入词表分区——不再随机划分绿/红列表,而是按预定义主题对 token 进行语义聚类。释义后同义替换的 token 大概率仍属于同一主题列表,因此水印信号更难被破坏。
核心 idea:主题对齐的词表分区天然具有"语义内聚性"——同一主题下的 token 互为同义/近义词,释义攻击中的词汇替换大概率落在同一绿色列表内,从而保留水印信号。
方法详解¶
整体框架¶
TBW 包含三个阶段:(1) 离线词表分区——将所有 token 按语义相似度分配到 \(K\) 个主题列表;(2) 在线水印嵌入——从输入提示中提取主题,选择对应的绿色列表,在生成时对绿色 token 施加 logit 偏置 \(\delta\);(3) 水印检测——使用 \(z\)-score 统计检验判断文本是否被水印标记,支持三种检测方案。
关键设计¶
-
主题对齐的词表分区(Token-to-Topic Mapping):
- 功能:将词表中所有 token 分配到语义一致的主题列表中
- 核心思路:预定义 \(K\) 个高层主题(如 {animals, technology, sports, medicine})。使用句子嵌入模型(all-MiniLM-L6-v2)为每个 token \(v\) 和主题 \(t_i\) 计算余弦相似度 \(\text{sim}(v, t_i) = e_v \cdot e_{t_i} / (\|e_v\| \|e_{t_i}\|)\)。若最大相似度超过阈值 \(\tau\),token 分配到对应主题列表 \(G_{t_i}\);未超阈值的 token 以 round-robin 方式均匀分配到所有列表,确保词表全覆盖。\(K=4\) 对应有效绿色列表比例约 0.25
- 设计动机:与 KGW 的随机分区相比,主题分区保证同一列表内的 token 语义相关——攻击者释义替换后的同义词大概率仍在同一绿色列表中,水印信号更难被破坏
-
基于主题的水印嵌入:
- 功能:在文本生成过程中嵌入与主题对齐的水印信号
- 核心思路:给定输入提示 \(x^{\text{prompt}}\),使用 KeyBERT 提取关键主题。若提取的主题直接匹配预定义主题集,选择对应列表 \(G_{t^*}\);否则对提取的主题嵌入做 \(k\)-means 聚类,选择与质心最相似的预定义主题。生成时在每步对 \(v \in G_{t^*}\) 的 logit 加偏置 \(\delta\),然后正常 softmax 采样。整个过程仅需一次主题提取和逐步 logit 偏置,无需额外解码或重排序
- 设计动机:语义对齐的绿色列表使偏置后的采样分布更贴近自然分布——模型本就倾向选择与主题相关的 token,额外偏置的影响更小,因此困惑度更低
-
三级水印检测方案:
- 功能:在不同场景下以不同鲁棒性/准确性权衡进行检测
- 核心思路:所有方案共享 \(z\)-score 统计检验 \(z = (g - \gamma \cdot n) / \sqrt{n \cdot \gamma \cdot (1-\gamma)}\),其中 \(g\) 为绿色 token 数,\(n\) 为总 token 数。(1) 严格主题匹配:从待检文本提取主题,匹配预定义主题选择绿色列表计算 \(z\)-score;(2) 滑动窗口检测:将文本分窗,每窗口独立提取主题后多数投票决定全局主题;(3) 最大 \(z\)-score 检测:对每个预定义主题列表分别计算 \(z\)-score,取最大值 \(t^* = \arg\max_{t_i} z_i\)——完全不依赖主题提取
- 设计动机:最大 \(z\)-score 方案消除了主题提取失败的风险,实际检测中达到近乎完美的表现(99.6%-100%),是最实用的部署方案
损失函数 / 训练策略¶
TBW 无需训练,仅在推理时进行 logit 偏置。主要超参数:\(K=4\)(主题数),\(\delta=2.0\)(偏置强度,与 KGW 对比时统一),\(\tau=0.7\)(相似度阈值)。
实验关键数据¶
主实验 — 释义攻击鲁棒性(ROC-AUC)¶
| 模型 | 攻击 | TBW | KGW | DiP | Unigram | SynthID | SIR |
|---|---|---|---|---|---|---|---|
| OPT-6.7B | 无攻击 | 1.000 | 1.000 | 0.999 | 1.000 | 0.999 | 0.995 |
| OPT-6.7B | PEGASUS | 0.990 | 0.975 | 0.824 | 0.987 | 0.910 | 0.971 |
| OPT-6.7B | DIPPER | 0.945 | 0.826 | 0.576 | 0.955 | 0.650 | 0.891 |
| Gemma-7B | PEGASUS | 0.981 | 0.983 | 0.836 | 0.985 | 0.912 | 0.952 |
| Gemma-7B | DIPPER | 0.871 | 0.825 | 0.546 | 0.911 | 0.656 | 0.822 |
检测方案对比(OPT-6.7B)¶
| 检测方案 | 检测率 | 平均 z-score | 主题准确率 |
|---|---|---|---|
| 严格 K-means | 54.0% | 6.32±10.80 | 54.2% |
| 严格 Embedding | 57.4% | 7.05±10.68 | 62.4% |
| 滑动窗口 Embedding | 56.6% | 6.91±10.67 | 60.2% |
| 最大 z-score | 99.6% | 15.88±3.03 | 100% |
关键发现¶
- 文本质量:TBW 困惑度接近无水印基线,比 Unigram 改善约 42%(OPT-6.7B)和 48%(Gemma-7B)
- 释义鲁棒性:在 PEGASUS 攻击下 TPR@1%FPR 达 91.0%(OPT-6.7B),远超 KGW 的 57.8%
- 词汇扰动:TBW 在随机和定向扰动下均保持较高的检测分数,Unigram 虽抗释义但对简单扰动反而脆弱
- 最大 z-score 检测方案几乎完美(99.6%/100%),且无需主题提取步骤
- 计算效率:TBW 生成时间与无水印基线几乎相同,而 EXP-Edit 和 SIR 显著增加延迟
- 主题数可扩展:\(K\) 从 4 增加到 32,z-score 从约 11 优雅降至约 7,仍具竞争力
亮点与洞察¶
- 最大 z-score 检测方案的设计极为巧妙:完全绕过了主题提取这一不可靠步骤,让水印信号本身"自动选择"正确的主题列表。这种"试遍所有可能性取最优"的策略简单却有效,检测率从 57.4% 飙升至 99.6%
- 语义内聚性是 TBW 鲁棒性的关键:同义替换后 token 大概率仍在同一主题列表内,这是随机分区方案无法做到的。这一洞察可迁移到其他需要抗编辑鲁棒性的水印场景
- TBW 的实际部署门槛极低:无需修改模型架构、无需多次解码、无需访问解码器参数,仅在 logit 层面加偏置即可
局限与展望¶
- 仅使用四个非常宽泛的主题(animals, technology, sports, medicine),对特定领域文本的主题匹配精度有限
- round-robin 分配残余 token 时引入了随机种子作为私密参数,这增加了安全性但也增加了密钥管理负担
- 在更强的语义攻击(如人工精心改写)下的鲁棒性未测试
- 检测需要知道偏置强度 \(\delta\) 和主题配置等参数,限制了跨提供商的互操作性
- 长文本中的主题漂移问题虽然通过最大 z-score 方案缓解,但更细粒度的段落级检测值得探索
相关工作与启发¶
- vs KGW: KGW 随机分区,语义无关的 token 被强制归入同一列表;TBW 按语义聚类,绿色列表内 token 天然相关,释义后替换词大概率仍在绿色列表内,鲁棒性更强。KGW 的 TPR@1%FPR 在 PEGASUS 攻击下仅 57.8%,TBW 达 91.0%
- vs SynthID-Text: SynthID 使用锦标赛采样确保轻量高效,但抗释义极弱(ROC-AUC 在 DIPPER 下仅 0.650);TBW 同样轻量但抗释义 ROC-AUC 达 0.945
- vs Unigram: Unigram 基于一元统计分配 token,抗释义能力与 TBW 相当,但对简单的词汇扰动反而比 TBW 更脆弱——TBW 在两类攻击下均表现出色
- vs SIR: SIR 引入用户上下文增强鲁棒性但需要修改解码器和访问提示,部署复杂;TBW 无需任何模型修改
评分¶
- 新颖性: ⭐⭐⭐⭐ 将语义主题引入水印分区是自然但有效的改进,最大 z-score 检测方案尤为巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖文本质量、释义/扰动鲁棒性、检测方案对比、效率、可扩展性,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,威胁模型和检测方案层次分明,但部分内容重复
- 价值: ⭐⭐⭐⭐ 实际部署门槛低,为 AI 文本溯源提供了实用方案
相关论文¶
- [ACL 2026] Jailbreaking Large Language Models with Morality Attacks
- [ACL 2025] Ensemble Watermarks for Large Language Models
- [AAAI 2026] Gender Bias in Emotion Recognition by Large Language Models
- [AAAI 2026] SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth
- [ICLR 2026] BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models