Topic-Based Watermarks for Large Language Models¶

会议: ACL 2026
arXiv: 2404.02138
代码: GitHub
领域: AI安全 / 文本水印
关键词: 文本水印, 主题对齐, 语义分区, 释义鲁棒性, 轻量检测

一句话总结¶

本文提出基于主题的轻量水印方案 TBW，将词表按语义主题聚类为"绿色列表"（而非随机分区），根据输入提示选择语义对齐的主题列表进行 logit 偏置，在保持与无水印文本相当的困惑度的同时，显著提升了对释义和词汇扰动攻击的鲁棒性。

研究背景与动机¶

领域现状：LLM 生成的文本几乎与人类写作无法区分，带来了错误信息传播、版权侵权和模型坍缩（AI 训练 AI）等风险。水印技术通过在生成过程中嵌入可检测签名来标识 AI 生成文本。主流方法 KGW 将词表随机划分为"绿色"/"红色"列表，偏置采样倾向绿色 token。

现有痛点：(1) 随机分区的脆弱性：KGW 的随机划分使绿色列表中的 token 与当前语义上下文无关，攻击者通过释义即可大幅降低绿色 token 比例；(2) 质量-鲁棒性权衡：计算密集的方法（EXP-Edit、ITS-Edit）通过多次解码提升鲁棒性但严重增加延迟；SynthID 等轻量方法虽然高效但抗释义能力弱；(3) 语义水印方案的部署障碍：SIR 等引入语义信息的方法需要解码器修改或提示访问，阻碍了在大规模商业 LLM 中的部署。

核心矛盾：现有方法在鲁棒性、文本质量和计算效率三者之间难以兼顾——轻量方法抗攻击弱，鲁棒方法计算贵且降低文本质量。

本文目标：设计一种轻量的语义感知水印方案，在不增加显著计算开销的前提下，同时提升鲁棒性和文本质量。

切入角度：将语义信息引入词表分区——不再随机划分绿/红列表，而是按预定义主题对 token 进行语义聚类。释义后同义替换的 token 大概率仍属于同一主题列表，因此水印信号更难被破坏。

核心 idea：主题对齐的词表分区天然具有"语义内聚性"——同一主题下的 token 互为同义/近义词，释义攻击中的词汇替换大概率落在同一绿色列表内，从而保留水印信号。

方法详解¶

整体框架¶

TBW 包含三个阶段：(1) 离线词表分区——将所有 token 按语义相似度分配到 \(K\) 个主题列表；(2) 在线水印嵌入——从输入提示中提取主题，选择对应的绿色列表，在生成时对绿色 token 施加 logit 偏置 \(\delta\)；(3) 水印检测——使用 \(z\)-score 统计检验判断文本是否被水印标记，支持三种检测方案。

关键设计¶

主题对齐的词表分区（Token-to-Topic Mapping）:
- 功能：将词表中所有 token 分配到语义一致的主题列表中
- 核心思路：预定义 \(K\) 个高层主题（如 {animals, technology, sports, medicine}）。使用句子嵌入模型（all-MiniLM-L6-v2）为每个 token \(v\) 和主题 \(t_i\) 计算余弦相似度 \(\text{sim}(v, t_i) = e_v \cdot e_{t_i} / (\|e_v\| \|e_{t_i}\|)\)。若最大相似度超过阈值 \(\tau\)，token 分配到对应主题列表 \(G_{t_i}\)；未超阈值的 token 以 round-robin 方式均匀分配到所有列表，确保词表全覆盖。\(K=4\) 对应有效绿色列表比例约 0.25
- 设计动机：与 KGW 的随机分区相比，主题分区保证同一列表内的 token 语义相关——攻击者释义替换后的同义词大概率仍在同一绿色列表中，水印信号更难被破坏
基于主题的水印嵌入:
- 功能：在文本生成过程中嵌入与主题对齐的水印信号
- 核心思路：给定输入提示 \(x^{\text{prompt}}\)，使用 KeyBERT 提取关键主题。若提取的主题直接匹配预定义主题集，选择对应列表 \(G_{t^*}\)；否则对提取的主题嵌入做 \(k\)-means 聚类，选择与质心最相似的预定义主题。生成时在每步对 \(v \in G_{t^*}\) 的 logit 加偏置 \(\delta\)，然后正常 softmax 采样。整个过程仅需一次主题提取和逐步 logit 偏置，无需额外解码或重排序
- 设计动机：语义对齐的绿色列表使偏置后的采样分布更贴近自然分布——模型本就倾向选择与主题相关的 token，额外偏置的影响更小，因此困惑度更低
三级水印检测方案:
- 功能：在不同场景下以不同鲁棒性/准确性权衡进行检测
- 核心思路：所有方案共享 \(z\)-score 统计检验 \(z = (g - \gamma \cdot n) / \sqrt{n \cdot \gamma \cdot (1-\gamma)}\)，其中 \(g\) 为绿色 token 数，\(n\) 为总 token 数。(1) 严格主题匹配：从待检文本提取主题，匹配预定义主题选择绿色列表计算 \(z\)-score；(2) 滑动窗口检测：将文本分窗，每窗口独立提取主题后多数投票决定全局主题；(3) 最大 \(z\)-score 检测：对每个预定义主题列表分别计算 \(z\)-score，取最大值 \(t^* = \arg\max_{t_i} z_i\)——完全不依赖主题提取
- 设计动机：最大 \(z\)-score 方案消除了主题提取失败的风险，实际检测中达到近乎完美的表现（99.6%-100%），是最实用的部署方案

损失函数 / 训练策略¶

TBW 无需训练，仅在推理时进行 logit 偏置。主要超参数：\(K=4\)（主题数），\(\delta=2.0\)（偏置强度，与 KGW 对比时统一），\(\tau=0.7\)（相似度阈值）。

实验关键数据¶

主实验 — 释义攻击鲁棒性（ROC-AUC）¶

模型	攻击	TBW	KGW	DiP	Unigram	SynthID	SIR
OPT-6.7B	无攻击	1.000	1.000	0.999	1.000	0.999	0.995
OPT-6.7B	PEGASUS	0.990	0.975	0.824	0.987	0.910	0.971
OPT-6.7B	DIPPER	0.945	0.826	0.576	0.955	0.650	0.891
Gemma-7B	PEGASUS	0.981	0.983	0.836	0.985	0.912	0.952
Gemma-7B	DIPPER	0.871	0.825	0.546	0.911	0.656	0.822

检测方案对比（OPT-6.7B）¶

检测方案	检测率	平均 z-score	主题准确率
严格 K-means	54.0%	6.32±10.80	54.2%
严格 Embedding	57.4%	7.05±10.68	62.4%
滑动窗口 Embedding	56.6%	6.91±10.67	60.2%
最大 z-score	99.6%	15.88±3.03	100%

关键发现¶

文本质量：TBW 困惑度接近无水印基线，比 Unigram 改善约 42%（OPT-6.7B）和 48%（Gemma-7B）
释义鲁棒性：在 PEGASUS 攻击下 TPR@1%FPR 达 91.0%（OPT-6.7B），远超 KGW 的 57.8%
词汇扰动：TBW 在随机和定向扰动下均保持较高的检测分数，Unigram 虽抗释义但对简单扰动反而脆弱
最大 z-score 检测方案几乎完美（99.6%/100%），且无需主题提取步骤
计算效率：TBW 生成时间与无水印基线几乎相同，而 EXP-Edit 和 SIR 显著增加延迟
主题数可扩展：\(K\) 从 4 增加到 32，z-score 从约 11 优雅降至约 7，仍具竞争力

亮点与洞察¶

最大 z-score 检测方案的设计极为巧妙：完全绕过了主题提取这一不可靠步骤，让水印信号本身"自动选择"正确的主题列表。这种"试遍所有可能性取最优"的策略简单却有效，检测率从 57.4% 飙升至 99.6%
语义内聚性是 TBW 鲁棒性的关键：同义替换后 token 大概率仍在同一主题列表内，这是随机分区方案无法做到的。这一洞察可迁移到其他需要抗编辑鲁棒性的水印场景
TBW 的实际部署门槛极低：无需修改模型架构、无需多次解码、无需访问解码器参数，仅在 logit 层面加偏置即可

局限与展望¶

仅使用四个非常宽泛的主题（animals, technology, sports, medicine），对特定领域文本的主题匹配精度有限
round-robin 分配残余 token 时引入了随机种子作为私密参数，这增加了安全性但也增加了密钥管理负担
在更强的语义攻击（如人工精心改写）下的鲁棒性未测试
检测需要知道偏置强度 \(\delta\) 和主题配置等参数，限制了跨提供商的互操作性
长文本中的主题漂移问题虽然通过最大 z-score 方案缓解，但更细粒度的段落级检测值得探索

评分¶

新颖性: ⭐⭐⭐⭐ 将语义主题引入水印分区是自然但有效的改进，最大 z-score 检测方案尤为巧妙
实验充分度: ⭐⭐⭐⭐⭐ 覆盖文本质量、释义/扰动鲁棒性、检测方案对比、效率、可扩展性，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，威胁模型和检测方案层次分明，但部分内容重复
价值: ⭐⭐⭐⭐ 实际部署门槛低，为 AI 文本溯源提供了实用方案