跳转至

Improved Unbiased Watermark for Large Language Models

会议: ACL 2025
arXiv: 2502.11268
代码: https://github.com/RayRuiboChen/MCMark
领域: AI安全
关键词: watermark, unbiased, LLM, MCmark, multi-channel, detectability

一句话总结

提出 MCmark,一族基于多通道(Multi-Channel)的无偏水印算法,通过将词表分割为 \(l\) 个段并在选中段内提升 token 概率来嵌入统计信号,在保持 LLM 原始输出分布的同时,可检测性比现有无偏水印提升超 10%。

研究背景与动机

  1. 领域现状:随着 AI 文本生成能力超越人类,验证 AI 生成内容来源变得至关重要。水印技术通过在生成文本中嵌入统计信号来区分人类和 AI 文本。有偏水印(如 KGW)通过给 green list token 加 δ 来增强可检测性,但会扭曲原始分布从而降低文本质量。无偏水印保持原始分布不变,但可检测性较弱。
  2. 现有痛点:现有无偏水印方法面临三大实用问题——(1) Hu et al. 的 γ-reweight 方法需要访问 LM prompt 和 API 来做检测,不是 model-agnostic 的;(2) EXP-edit 检测需要上千次推理,时间成本极高;(3) DiPmark 虽然 model-agnostic 但检测准确率明显低于有偏水印(如 KGW δ=2.0 时 TPR@FPR=0.1% 为 98.79%,而 DiPmark 只有 78.77%)。
  3. 核心矛盾:无偏水印天然在检测性上弱于有偏水印——因为不改变分布,统计信号更弱。现有方法都基于"红绿列表二分法"(两个分布通道),这限制了信号强度的上限。
  4. 本文要解决什么? 在严格保持无偏性的前提下,大幅提升可检测性和鲁棒性。核心想法是:从 2 个通道推广到 \(l\) 个通道。
  5. 切入角度:作者引入"分布通道"(Distribution Channel)这一抽象概念,将水印问题形式化为一个带约束的优化问题——最大化在水印键选中通道下生成对应段 token 的总概率,同时约束每个通道必须是有效概率分布且期望等于原始分布。
  6. 核心 idea 一句话:将词表均分为 \(l\) 段,构建 \(l\) 个分布通道,每个通道提升对应段的 token 概率,通过求解闭式最优解实现在保持无偏性前提下可检测性最大化。

方法详解

整体框架

MCmark 的 pipeline 分为生成和检测两阶段: - 生成阶段:给定 LLM 原始分布 \(P_M(\cdot|x_{1:t})\),将词表 \(V\) 均分为 \(l\) 个段 \(V_1, \dots, V_l\)。根据秘密密钥 \(\mathsf{sk}\) 和前 \(n\) 个 token 的 n-gram 作为水印键,伪随机选择一个分布通道 \(P_i\),从 \(P_i\) 中采样生成下一个 token。 - 检测阶段:给定生成文本和密钥,恢复每步的通道索引 \(i_t\),统计 \(\Phi = \sum_{t=1}^{T} \mathbf{1}_{x_t \in V_{i_t}}\)。在零假设(无水印)下,\(\Phi\) 服从二项分布(成功率 \(1/l\)),通过假设检验判断是否有水印。

关键设计

  1. 分布通道(Distribution Channel)概念
  2. 做什么:将水印后的分布空间抽象为一组"通道" \(\{P_1, \dots, P_l\}\),每个通道是一个完整的概率分布
  3. 核心思路:在通道 \(P_i\) 中,属于 \(V_i\) 的 token 概率被提升;属于其他段的概率被相应降低。水印键决定选择哪个通道。关键约束是所有通道的加权平均必须恢复原始分布:\(\frac{1}{l} \sum_{i=1}^{l} P_i(x) = P_M(x|x_{1:t})\)
  4. 设计动机:之前的方法(DiPmark、γ-reweight、STA-1)本质上只有 2 个通道(红绿列表),限制了信号强度。推广到 \(l\) 个通道可以更大幅度地重分配概率

  5. 优化问题的闭式解

  6. 做什么:找到在满足无偏约束下可检测性最大化的通道概率分配
  7. 核心思路:定义优化目标为 \(\max \sum_{i=1}^{l} P_{i,V_i}\)(最大化每个通道在其对应段上的总概率),约束为行和为 1(概率有效性)和列和等于 \(l \cdot P_{V_j}\)(无偏性)。最优解为闭式:\(P_{i,V_i} = \min\{1, l \cdot P_{V_i}\}\),当 \(i \ne j\)\(P_{i,V_j} = \frac{(1 - lP_{V_i})_+ (lP_{V_j} - 1)_+}{\sum_k (1 - lP_{V_k})_+}\)
  8. 设计动机:避免数值优化,直接闭式计算,确保时间效率与 KGW 等方法相当。且理论上可证这是全局最优

  9. 水印键设计与 n-gram 策略

  10. 做什么:用秘密密钥 \(\mathsf{sk}\) 和前 \(n\) 个 token 的 n-gram 作为伪随机种子选择通道
  11. 核心思路:与 KGW 方法一致的密钥生成策略,保证了每个 token 的通道选择看似随机但可确定性恢复
  12. 设计动机:n-gram 依赖使得通道选择与上下文相关,增加了水印的不可预测性

理论分析:期望假阴性率

作者定义了期望假阴性率(Expected True-Negative Rate, \(E_{TN}\))来量化可检测性。当 \(l=2\) 时: - DiPmark: \(E_{TN}^{\text{DiP}} = \max\{P_{V_r} - \alpha, 0\} + \max\{P_{V_r} - (1-\alpha), 0\}\) - STA-1: \(E_{TN}^{\text{STA}} = P_{V_r}^2\) - MCmark: \(E_{TN}^{\text{MCmark}} = |1/2 - P_{V_r}|\)

\(P_{V_r}\) 均匀分布于 \([0,1]\) 的假设下,MCmark 的期望 \(E_{TN}\)\(1/4\),低于 DiPmark 的 \((\alpha - 1/2)^2 + 1/4\) 和 STA-1 的 \(1/3\),且方差最小(\(1/48\)),说明 MCmark 能更稳定地嵌入可检测信号。

鲁棒性-可检测性权衡

增大 \(l\) 的效果呈现权衡: - 可检测性:适度增大 \(l\) 能提升可检测性(更多通道 → 概率重分配更极端) - 鲁棒性\(l\) 增大时,每段 \(V_i\) 变小,攻击者修改一个 token 后落入正确段的概率仅 \(1/l\),这对鲁棒性有利;但过大的 \(l\) 导致 \(P_{V_i}\) 分布不均(某些段概率极低),反而增加假阴性

实验中 \(l=20\) 在检测性和鲁棒性间取得最佳平衡。

损失函数 / 训练策略

MCmark 不需要训练,在推理时通过修改采样策略嵌入水印。

实验关键数据

主实验:可检测性对比(LLaMA2 + C4 数据集)

方法 TPR@FPR=1% TPR@FPR=0.1% TPR@FPR=0.01% Median p-value
KGW (δ=2.0, 有偏) 99.34% 98.79% 97.79% 6.58e-22
Unigram (δ=2.0, 有偏) 99.88% 99.52% 98.93% 5.39e-25
DiPmark (α=0.4) 87.66% 78.77% 71.77% 1.24e-7
DiPmark (α=0.3) 81.88% 69.88% 61.65% 5.28e-6
STA-1 84.93% 71.58% 57.76% 2.66e-5
γ-reweight 89.17% 81.79% 75.83% 4.47e-8
EXP-edit 89.01% 86.35% - 2.00e-4
MCmark (l=20) 98.96% 98.38% 97.69% 8.10e-30

MCmark 在无偏水印中 TPR@FPR=0.1% 提升超 14%(98.38% vs 81.79%),且可媲美最强有偏水印 KGW (δ=2.0)。

鲁棒性对比(Token 替换攻击,TPR@FPR=0.1%)

方法 ε=0.05 ε=0.1 ε=0.2
DiPmark (α=0.4) 69.63% 58.13% 29.06%
STA-1 60.84% 47.15% 21.35%
EXP-edit 81.35% 78.27% 74.88%
MCmark (l=20) 97.11% 96.07% 88.79%

GPT 改写攻击鲁棒性

方法 TPR@FPR=1% Median p-value AUC
DiPmark (α=0.4) 6.4% 6.03e-1 0.4921
STA-1 11.6% 2.32e-1 0.6850
EXP-edit 17.9% 2.30e-1 0.6879
MCmark (l=20) 48.0% 1.26e-2 0.8592

消融实验:通道数 \(l\) 的影响

配置 说明
l=2 退化为红绿列表,可检测性接近 DiPmark,但理论最优解已优于 DiPmark
l=5~20 可检测性持续上升,鲁棒性仍保持高水平
l=20 最佳平衡点,TPR 和鲁棒性均最优
l>100 可检测性的 p-value 继续下降,但鲁棒性开始显著下降
l=32000 (=|V|) 每段仅 1 个 token,退化为 Gumbel-max,鲁棒性最差

关键发现

  • 通道数 \(l\) 是核心超参数:\(l=20\) 为最优实践甜蜜点,在此设定下可检测性几乎追平最强有偏水印(δ=2.0 的 KGW),而鲁棒性远超所有无偏基线
  • 无偏性验证:在 \(l\) 从 2 到 32000 的全范围内,MCmark 在翻译(BLEU)和摘要(困惑度)任务上均与无水印 baseline 一致,验证了理论无偏保证
  • GPT 改写攻击下 MCmark 仍保持 AUC=0.8592,远超所有竞品(最高仅 0.6879)——这在实际场景中极有意义,因为用户最可能使用 GPT 改写来去除水印
  • GPT 回译攻击下 MCmark 的 TPR@FPR=0.01% 高达 81.2%,而 DiPmark 仅 19.8%,STA-1 仅 11.1%
  • DIPPER 攻击(最强文本改写攻击)下所有方法都大幅退化,但 MCmark (AUC=0.695) 仍是最优

亮点与洞察

  • 分布通道的概念极其优雅:将无偏水印问题统一为"如何分配概率到 \(l\) 个通道"的优化问题,使得核心算法只有一个公式(Eq. 3),且是闭式解。这种高度简洁的形式化让方法既有理论保证又容易实现
  • 二分法到多分法的推广非常自然:之前所有方法都默认用红绿二分,MCmark 指出这不是必须的——\(l=20\) 时信号密度大幅增加。这个简单但反直觉的观察是全文最大贡献
  • 可检测性-鲁棒性权衡的理论化:给出了清晰的权衡分析——\(l\) 越大可检测性越强但鲁棒性越弱(单 token 修改更可能破坏信号)。这一框架可以指导其他水印方法的设计
  • 迁移潜力:多通道的设计思路可以迁移到图像水印、音频水印等领域——只要有离散 token 的概念,就可以做分段提升

局限性 / 可改进方向

  • \(l\) 的自适应选择:论文固定 \(l=20\),但不同文本长度、不同领域的最优 \(l\) 可能不同。一个自适应的 \(l\) 选择策略(根据词表概率分布的熵动态调整)可能进一步提升性能
  • 词表分割策略:目前使用均匀随机分割,但如果根据语义相似度分组(使得每段内的 token 语义相关),可能在不损失可检测性的同时提升文本自然度
  • 长文本场景未充分验证:实验主要在短文本(C4 数据集片段)上进行,对于长文档(如论文、报告)的表现未知
  • 与强改写攻击的博弈:虽然 GPT 改写下 AUC=0.8592,但 TPR@FPR=0.01% 仍只有 20.2%,说明在高精度需求场景下仍有提升空间

相关工作与启发

  • vs KGW/Unigram(有偏水印): KGW 通过给 green list 加 δ 实现强可检测性,但会改变文本分布。MCmark 在不改变分布的前提下达到了 comparable 的可检测性(\(l=20\) 时 TPR 接近 KGW δ=2.0),且理论上保证了无偏性
  • vs DiPmark: DiPmark 是 MCmark 在 \(l=2\) 时的特例。MCmark 通过推广到 \(l>2\) 获得了大幅提升(TPR@FPR=0.1% 从 78.77% → 98.38%)
  • vs EXP-edit: EXP-edit 检测需要上千次 LLM 推理且无理论 FPR 保证,MCmark 的检测是 one-pass 且有严格的假阳性率上界
  • vs STA-1: STA-1 优化低熵场景的文本质量,MCmark 则在所有熵水平都保持优势,且方法更通用(不需要针对特定场景调整)

评分

  • 新颖性: ⭐⭐⭐⭐ 从二分推广到多分的思路直觉上简单但实际效果惊人,理论贡献扎实
  • 实验充分度: ⭐⭐⭐⭐⭐ 涵盖多种攻击(token替换、GPT改写、回译、DIPPER),多个模型和数据集,消融详尽
  • 写作质量: ⭐⭐⭐⭐ 数学推导清晰,实验组织有条理,符号系统有时需反复对照
  • 价值: ⭐⭐⭐⭐ 对 LLM 水印的实用化有重要推动,\(l=20\) 的实践指导清晰,代码开源