Improved Unbiased Watermark for Large Language Models¶
会议: ACL 2025
arXiv: 2502.11268
代码: https://github.com/RayRuiboChen/MCMark
领域: AI安全
关键词: watermark, unbiased, LLM, MCmark, multi-channel, detectability
一句话总结¶
提出 MCmark,一族基于多通道(Multi-Channel)的无偏水印算法,通过将词表分割为 \(l\) 个段并在选中段内提升 token 概率来嵌入统计信号,在保持 LLM 原始输出分布的同时,可检测性比现有无偏水印提升超 10%。
研究背景与动机¶
- 领域现状:随着 AI 文本生成能力超越人类,验证 AI 生成内容来源变得至关重要。水印技术通过在生成文本中嵌入统计信号来区分人类和 AI 文本。有偏水印(如 KGW)通过给 green list token 加 δ 来增强可检测性,但会扭曲原始分布从而降低文本质量。无偏水印保持原始分布不变,但可检测性较弱。
- 现有痛点:现有无偏水印方法面临三大实用问题——(1) Hu et al. 的 γ-reweight 方法需要访问 LM prompt 和 API 来做检测,不是 model-agnostic 的;(2) EXP-edit 检测需要上千次推理,时间成本极高;(3) DiPmark 虽然 model-agnostic 但检测准确率明显低于有偏水印(如 KGW δ=2.0 时 TPR@FPR=0.1% 为 98.79%,而 DiPmark 只有 78.77%)。
- 核心矛盾:无偏水印天然在检测性上弱于有偏水印——因为不改变分布,统计信号更弱。现有方法都基于"红绿列表二分法"(两个分布通道),这限制了信号强度的上限。
- 本文要解决什么? 在严格保持无偏性的前提下,大幅提升可检测性和鲁棒性。核心想法是:从 2 个通道推广到 \(l\) 个通道。
- 切入角度:作者引入"分布通道"(Distribution Channel)这一抽象概念,将水印问题形式化为一个带约束的优化问题——最大化在水印键选中通道下生成对应段 token 的总概率,同时约束每个通道必须是有效概率分布且期望等于原始分布。
- 核心 idea 一句话:将词表均分为 \(l\) 段,构建 \(l\) 个分布通道,每个通道提升对应段的 token 概率,通过求解闭式最优解实现在保持无偏性前提下可检测性最大化。
方法详解¶
整体框架¶
MCmark 的 pipeline 分为生成和检测两阶段: - 生成阶段:给定 LLM 原始分布 \(P_M(\cdot|x_{1:t})\),将词表 \(V\) 均分为 \(l\) 个段 \(V_1, \dots, V_l\)。根据秘密密钥 \(\mathsf{sk}\) 和前 \(n\) 个 token 的 n-gram 作为水印键,伪随机选择一个分布通道 \(P_i\),从 \(P_i\) 中采样生成下一个 token。 - 检测阶段:给定生成文本和密钥,恢复每步的通道索引 \(i_t\),统计 \(\Phi = \sum_{t=1}^{T} \mathbf{1}_{x_t \in V_{i_t}}\)。在零假设(无水印)下,\(\Phi\) 服从二项分布(成功率 \(1/l\)),通过假设检验判断是否有水印。
关键设计¶
- 分布通道(Distribution Channel)概念:
- 做什么:将水印后的分布空间抽象为一组"通道" \(\{P_1, \dots, P_l\}\),每个通道是一个完整的概率分布
- 核心思路:在通道 \(P_i\) 中,属于 \(V_i\) 的 token 概率被提升;属于其他段的概率被相应降低。水印键决定选择哪个通道。关键约束是所有通道的加权平均必须恢复原始分布:\(\frac{1}{l} \sum_{i=1}^{l} P_i(x) = P_M(x|x_{1:t})\)
-
设计动机:之前的方法(DiPmark、γ-reweight、STA-1)本质上只有 2 个通道(红绿列表),限制了信号强度。推广到 \(l\) 个通道可以更大幅度地重分配概率
-
优化问题的闭式解:
- 做什么:找到在满足无偏约束下可检测性最大化的通道概率分配
- 核心思路:定义优化目标为 \(\max \sum_{i=1}^{l} P_{i,V_i}\)(最大化每个通道在其对应段上的总概率),约束为行和为 1(概率有效性)和列和等于 \(l \cdot P_{V_j}\)(无偏性)。最优解为闭式:\(P_{i,V_i} = \min\{1, l \cdot P_{V_i}\}\),当 \(i \ne j\) 时 \(P_{i,V_j} = \frac{(1 - lP_{V_i})_+ (lP_{V_j} - 1)_+}{\sum_k (1 - lP_{V_k})_+}\)
-
设计动机:避免数值优化,直接闭式计算,确保时间效率与 KGW 等方法相当。且理论上可证这是全局最优
-
水印键设计与 n-gram 策略:
- 做什么:用秘密密钥 \(\mathsf{sk}\) 和前 \(n\) 个 token 的 n-gram 作为伪随机种子选择通道
- 核心思路:与 KGW 方法一致的密钥生成策略,保证了每个 token 的通道选择看似随机但可确定性恢复
- 设计动机:n-gram 依赖使得通道选择与上下文相关,增加了水印的不可预测性
理论分析:期望假阴性率¶
作者定义了期望假阴性率(Expected True-Negative Rate, \(E_{TN}\))来量化可检测性。当 \(l=2\) 时: - DiPmark: \(E_{TN}^{\text{DiP}} = \max\{P_{V_r} - \alpha, 0\} + \max\{P_{V_r} - (1-\alpha), 0\}\) - STA-1: \(E_{TN}^{\text{STA}} = P_{V_r}^2\) - MCmark: \(E_{TN}^{\text{MCmark}} = |1/2 - P_{V_r}|\)
在 \(P_{V_r}\) 均匀分布于 \([0,1]\) 的假设下,MCmark 的期望 \(E_{TN}\) 为 \(1/4\),低于 DiPmark 的 \((\alpha - 1/2)^2 + 1/4\) 和 STA-1 的 \(1/3\),且方差最小(\(1/48\)),说明 MCmark 能更稳定地嵌入可检测信号。
鲁棒性-可检测性权衡¶
增大 \(l\) 的效果呈现权衡: - 可检测性:适度增大 \(l\) 能提升可检测性(更多通道 → 概率重分配更极端) - 鲁棒性:\(l\) 增大时,每段 \(V_i\) 变小,攻击者修改一个 token 后落入正确段的概率仅 \(1/l\),这对鲁棒性有利;但过大的 \(l\) 导致 \(P_{V_i}\) 分布不均(某些段概率极低),反而增加假阴性
实验中 \(l=20\) 在检测性和鲁棒性间取得最佳平衡。
损失函数 / 训练策略¶
MCmark 不需要训练,在推理时通过修改采样策略嵌入水印。
实验关键数据¶
主实验:可检测性对比(LLaMA2 + C4 数据集)¶
| 方法 | TPR@FPR=1% | TPR@FPR=0.1% | TPR@FPR=0.01% | Median p-value |
|---|---|---|---|---|
| KGW (δ=2.0, 有偏) | 99.34% | 98.79% | 97.79% | 6.58e-22 |
| Unigram (δ=2.0, 有偏) | 99.88% | 99.52% | 98.93% | 5.39e-25 |
| DiPmark (α=0.4) | 87.66% | 78.77% | 71.77% | 1.24e-7 |
| DiPmark (α=0.3) | 81.88% | 69.88% | 61.65% | 5.28e-6 |
| STA-1 | 84.93% | 71.58% | 57.76% | 2.66e-5 |
| γ-reweight | 89.17% | 81.79% | 75.83% | 4.47e-8 |
| EXP-edit | 89.01% | 86.35% | - | 2.00e-4 |
| MCmark (l=20) | 98.96% | 98.38% | 97.69% | 8.10e-30 |
MCmark 在无偏水印中 TPR@FPR=0.1% 提升超 14%(98.38% vs 81.79%),且可媲美最强有偏水印 KGW (δ=2.0)。
鲁棒性对比(Token 替换攻击,TPR@FPR=0.1%)¶
| 方法 | ε=0.05 | ε=0.1 | ε=0.2 |
|---|---|---|---|
| DiPmark (α=0.4) | 69.63% | 58.13% | 29.06% |
| STA-1 | 60.84% | 47.15% | 21.35% |
| EXP-edit | 81.35% | 78.27% | 74.88% |
| MCmark (l=20) | 97.11% | 96.07% | 88.79% |
GPT 改写攻击鲁棒性¶
| 方法 | TPR@FPR=1% | Median p-value | AUC |
|---|---|---|---|
| DiPmark (α=0.4) | 6.4% | 6.03e-1 | 0.4921 |
| STA-1 | 11.6% | 2.32e-1 | 0.6850 |
| EXP-edit | 17.9% | 2.30e-1 | 0.6879 |
| MCmark (l=20) | 48.0% | 1.26e-2 | 0.8592 |
消融实验:通道数 \(l\) 的影响¶
| 配置 | 说明 |
|---|---|
| l=2 | 退化为红绿列表,可检测性接近 DiPmark,但理论最优解已优于 DiPmark |
| l=5~20 | 可检测性持续上升,鲁棒性仍保持高水平 |
| l=20 | 最佳平衡点,TPR 和鲁棒性均最优 |
| l>100 | 可检测性的 p-value 继续下降,但鲁棒性开始显著下降 |
| l=32000 (=|V|) | 每段仅 1 个 token,退化为 Gumbel-max,鲁棒性最差 |
关键发现¶
- 通道数 \(l\) 是核心超参数:\(l=20\) 为最优实践甜蜜点,在此设定下可检测性几乎追平最强有偏水印(δ=2.0 的 KGW),而鲁棒性远超所有无偏基线
- 无偏性验证:在 \(l\) 从 2 到 32000 的全范围内,MCmark 在翻译(BLEU)和摘要(困惑度)任务上均与无水印 baseline 一致,验证了理论无偏保证
- GPT 改写攻击下 MCmark 仍保持 AUC=0.8592,远超所有竞品(最高仅 0.6879)——这在实际场景中极有意义,因为用户最可能使用 GPT 改写来去除水印
- GPT 回译攻击下 MCmark 的 TPR@FPR=0.01% 高达 81.2%,而 DiPmark 仅 19.8%,STA-1 仅 11.1%
- DIPPER 攻击(最强文本改写攻击)下所有方法都大幅退化,但 MCmark (AUC=0.695) 仍是最优
亮点与洞察¶
- 分布通道的概念极其优雅:将无偏水印问题统一为"如何分配概率到 \(l\) 个通道"的优化问题,使得核心算法只有一个公式(Eq. 3),且是闭式解。这种高度简洁的形式化让方法既有理论保证又容易实现
- 二分法到多分法的推广非常自然:之前所有方法都默认用红绿二分,MCmark 指出这不是必须的——\(l=20\) 时信号密度大幅增加。这个简单但反直觉的观察是全文最大贡献
- 可检测性-鲁棒性权衡的理论化:给出了清晰的权衡分析——\(l\) 越大可检测性越强但鲁棒性越弱(单 token 修改更可能破坏信号)。这一框架可以指导其他水印方法的设计
- 迁移潜力:多通道的设计思路可以迁移到图像水印、音频水印等领域——只要有离散 token 的概念,就可以做分段提升
局限性 / 可改进方向¶
- \(l\) 的自适应选择:论文固定 \(l=20\),但不同文本长度、不同领域的最优 \(l\) 可能不同。一个自适应的 \(l\) 选择策略(根据词表概率分布的熵动态调整)可能进一步提升性能
- 词表分割策略:目前使用均匀随机分割,但如果根据语义相似度分组(使得每段内的 token 语义相关),可能在不损失可检测性的同时提升文本自然度
- 长文本场景未充分验证:实验主要在短文本(C4 数据集片段)上进行,对于长文档(如论文、报告)的表现未知
- 与强改写攻击的博弈:虽然 GPT 改写下 AUC=0.8592,但 TPR@FPR=0.01% 仍只有 20.2%,说明在高精度需求场景下仍有提升空间
相关工作与启发¶
- vs KGW/Unigram(有偏水印): KGW 通过给 green list 加 δ 实现强可检测性,但会改变文本分布。MCmark 在不改变分布的前提下达到了 comparable 的可检测性(\(l=20\) 时 TPR 接近 KGW δ=2.0),且理论上保证了无偏性
- vs DiPmark: DiPmark 是 MCmark 在 \(l=2\) 时的特例。MCmark 通过推广到 \(l>2\) 获得了大幅提升(TPR@FPR=0.1% 从 78.77% → 98.38%)
- vs EXP-edit: EXP-edit 检测需要上千次 LLM 推理且无理论 FPR 保证,MCmark 的检测是 one-pass 且有严格的假阳性率上界
- vs STA-1: STA-1 优化低熵场景的文本质量,MCmark 则在所有熵水平都保持优势,且方法更通用(不需要针对特定场景调整)
评分¶
- 新颖性: ⭐⭐⭐⭐ 从二分推广到多分的思路直觉上简单但实际效果惊人,理论贡献扎实
- 实验充分度: ⭐⭐⭐⭐⭐ 涵盖多种攻击(token替换、GPT改写、回译、DIPPER),多个模型和数据集,消融详尽
- 写作质量: ⭐⭐⭐⭐ 数学推导清晰,实验组织有条理,符号系统有时需反复对照
- 价值: ⭐⭐⭐⭐ 对 LLM 水印的实用化有重要推动,\(l=20\) 的实践指导清晰,代码开源