XMark: Reliable Multi-Bit Watermarking for LLM-Generated Texts¶
会议: ACL 2026
arXiv: 2604.05242
代码: https://github.com/JiiahaoXU/XMark (有)
领域: 文本水印
关键词: 多比特水印, LLM文本检测, 数字水印, 文本溯源, logit扰动
一句话总结¶
提出 XMark,一种基于 Leave-one-Shard-out(LoSo)策略和 evergreen list 的多比特文本水印方法,通过跨多个词表排列的绿色列表交集和约束 token-shard 映射矩阵,在保持文本质量的同时显著提升了有限 token 条件下的解码准确率。
研究背景与动机¶
领域现状:多比特文本水印能在 LLM 生成文本中嵌入用户 ID、时间戳等可提取的二进制信息,用于恶意使用的溯源和归因。现有方法分为无失真方法(水印文本与未水印文本同分布)和 logit 扰动方法(通过修改 logit 嵌入信息)。
现有痛点:(1) 早期方法(CycleShift、CTWL、DepthW)解码时需暴力枚举所有候选消息,长消息计算不可行;(2) MPAC 采用分块编解码解决了可行性问题,但绿色列表比例被限制在 \(\gamma \leq 0.25\),导致 token 采样概率严重失真,文本质量下降明显;(3) StealthInk 改善了文本质量但削弱了水印信号,降低了解码准确率;(4) 所有方法在可用 token 数有限时解码准确率急剧下降,而实际使用中短文本很常见。
核心矛盾:文本质量和解码准确率之间存在根本性权衡——更大的绿色列表减少分布失真但削弱水印信号,更小的绿色列表增强信号但严重影响质量。特别是在有限 token 条件下,这个矛盾更加尖锐。
本文目标:同时提升水印文本质量和有限 token 条件下的解码准确率。
切入角度:反转绿色列表选择策略——不把编码消息对应的 shard 作为绿色列表(MPAC),而是排除该 shard、把其余所有 shard 作为绿色列表,将绿色列表比例从 \(\leq 0.25\) 提升到 \(\geq 0.75\)。
核心 idea:用 Leave-one-Shard-out 提升文本质量,用多个排列的 evergreen list 交集增加每个 token 的观测次数来补偿信号强度,用约束 TMM 防止未加扰 shard 计数爆炸。
方法详解¶
整体框架¶
XMark 遵循分块编解码范式:将 \(b\) 比特消息分为 \(r\) 个块,每个块 \(d\) 比特。编码时每生成一个 token 嵌入一个消息块的信息,解码时从嫌疑文本中恢复各块消息。核心创新在编码器的 LoSo + evergreen list 设计和解码器的 cTMM 设计。
关键设计¶
-
Leave-one-Shard-out (LoSo) 编码:
- 功能:通过反转绿色列表选择策略大幅提升文本质量
- 核心思路:MPAC 把消息值 \([\mathbf{m}_i]_{10}\) 对应的 shard 作为绿色列表(\(\gamma = 2^{-d} \leq 0.25\)),而 LoSo 把该 shard 排除,其余所有 shard 组成绿色列表(\(\gamma = 1 - 2^{-d} \geq 0.75\))。解码时反向寻找 token 数最少的 shard 来恢复消息。例如 \(d=2, \mathbf{m}_i=11\) 时,排除 \(\mathcal{S}_3\),加扰 \(\mathcal{S}_0, \mathcal{S}_1, \mathcal{S}_2\)
- 设计动机:绿色列表比例从 0.25 提升到 0.75 意味着大部分词表的 logit 分布保持原样,文本质量接近未水印文本
-
Evergreen List(多排列交集):
- 功能:在保持大绿色列表的同时增加每个 token 对解码的信息贡献,弥补 LoSo 信号弱的问题
- 核心思路:使用 \(k\) 个不同的哈希密钥生成 \(k\) 个词表排列,每个排列各有一个 LoSo 绿色列表 \(\mathcal{G}_j\),取所有绿色列表的交集作为 evergreen list \(\mathcal{E} = \bigcap_{j=0}^{k-1} \mathcal{G}_j\)。只加扰 \(\mathcal{E}\) 中 token 的 logit。期望绿色列表比例为 \(\mathbb{E}[\gamma] \approx (1-2^{-d})^k\)。解码时每个 token 可以在 \(k\) 个排列中各贡献一次观测,从 \(T\) 个 token 最多获得 \(kT\) 次观测
- 设计动机:单一 LoSo 的信号太弱(比特准确率低于 MPAC),但通过多排列的 evergreen list,既维持了较大的绿色列表比例,又将观测次数放大了 \(k\) 倍,显著提升了有限 token 条件下的解码可靠性
-
约束 Token-Shard 映射矩阵(cTMM):
- 功能:防止解码时未加扰 shard 的计数爆炸,提升解码鲁棒性
- 核心思路:标准 TMM 中,一个 token 可能在 \(k\) 个排列中都被映射到同一个未加扰 shard,导致该 shard 计数被放大 \(k\) 倍,淹没加扰 shard 和未加扰 shard 之间的区别。cTMM 约束每个 token 对每个 shard 最多贡献 1 次计数:\(\mathbf{A}^t[i,:] - \mathbf{A}^{t-1}[i,:] \in \{0,1\}^{2^d}\)
- 设计动机:没有此约束时,不属于任何绿色列表的 token 会被计数 \(k\) 次到未加扰 shard,使其计数可能超过加扰 shard,导致解码失败
损失函数 / 训练策略¶
XMark 是无需训练的推理时水印方法。编码通过在 LLM 生成每个 token 时向 evergreen list token 的 logit 加正偏置 \(\delta\) 实现。默认设置 \(d=2\)(每块 2 比特),超参数 \(k\) 控制质量-准确率权衡。
实验关键数据¶
主实验¶
文本补全任务(LLaMA-2-7B, C4 数据集, b=8 比特):
| 方法 | T=150 BA↑ | T=300 BA↑ | 平均 PPL↓ | 说明 |
|---|---|---|---|---|
| MPAC | 94.00 | 98.25 | 5.08 | 绿色列表小,质量差 |
| StealthInk | 85.00 | 92.50 | 4.13 | 质量好但准确率低 |
| CycleShift | 95.25 | 98.25 | 5.06 | 需暴力枚举 |
| XMark | 98.75 | 100.00 | 4.61 | 质量和准确率双优 |
未水印文本 PPL 为 3.97,XMark 的 PPL 最接近。
消融实验¶
| 配置 | T=100 BA↑ | 说明 |
|---|---|---|
| LoSo (k=1) | 74.12 | 信号太弱 |
| MPAC | 83.62 | 绿色列表小但信号强 |
| XMark (LoSo+evergreen+cTMM) | ~95+ | 三重设计协同 |
| XMark 用 TMM 替代 cTMM | 下降 | 未加扰 shard 计数爆炸 |
关键发现¶
- XMark 在所有 token 预算(T=150-300)下都同时超越了所有基线的准确率和文本质量
- 有限 token 条件下优势最大:T=150 时 XMark BA 98.75% vs MPAC 94.00%,差距 4.75%
- 在文本摘要等更难的任务上优势更加显著——XMark BA 79.81% vs MPAC 76.94%,且 PPL 低 1.28
- 超参数 \(k\) 有效控制质量-准确率权衡:\(k\) 增大准确率提升但 PPL 略增
亮点与洞察¶
- LoSo 策略的"反转"思维非常优雅——简单地反转绿色列表选择就将 \(\gamma\) 从 \(\leq 0.25\) 提升到 \(\geq 0.75\),大幅减少分布失真。这个思路类似于纠错编码中的"校验位"思想
- cTMM 的约束设计精准解决了 evergreen list 引入的解码偏差——每个 token 对每个 shard 最多贡献 1 次,防止了多排列带来的计数爆炸问题
- 三个设计(LoSo、evergreen list、cTMM)形成了紧密耦合的整体——LoSo 解决质量但损失信号,evergreen list 恢复信号但引入偏差,cTMM 消除偏差
局限与展望¶
- 仅在 LLaMA-2-7B 上验证,更大或更新的模型上的效果未知
- 抗编辑攻击(paraphrase、删除等)的鲁棒性分析有限
- \(k\) 的选择需要针对每个场景调优
- 多比特水印的安全性分析(能否被恶意提取或伪造)未深入讨论
相关工作与启发¶
- vs MPAC: MPAC 把消息对应 shard 作为绿色列表(\(\gamma=2^{-d}\)),XMark 反转为排除该 shard(\(\gamma=1-2^{-d}\)),加上 evergreen list 和 cTMM 后同时超越了 MPAC 的质量和准确率
- vs StealthInk: StealthInk 通过直接提升大 logit token 的概率改善质量但削弱信号。XMark 通过多排列交集在保持大绿色列表的同时增强信号,是更根本的解决方案
评分¶
- 新颖性: ⭐⭐⭐⭐ LoSo+evergreen list+cTMM 的组合设计有创意,但每个单独组件的技术含量有限
- 实验充分度: ⭐⭐⭐⭐ 多任务多基线对比充分,不同 token 预算下的分析有价值,但模型多样性不足
- 写作质量: ⭐⭐⭐⭐⭐ 数学推导严谨,设计动机清晰,图示帮助理解
- 价值: ⭐⭐⭐⭐ 有限 token 场景的实际价值高,但水印领域竞争激烈
相关论文¶
- [ACL 2026] Who Gets Which Message? Auditing Demographic Bias in LLM-Generated Targeted Text
- [ACL 2026] Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation
- [ICLR 2026] LLM Unlearning with LLM Beliefs
- [NeurIPS 2025] Learning to Watermark: A Selective Watermarking Framework for Large Language Models via Multi-Objective Optimization
- [ACL 2026] ReRec: Reasoning-Augmented LLM-based Recommendation Assistant via Reinforcement Fine-tuning