Improved Unbiased Watermark for Large Language Models¶

会议: ACL 2025
arXiv: 2502.11268
代码: https://github.com/RayRuiboChen/MCMark
领域: AI安全
关键词: watermark, unbiased, LLM, MCmark, multi-channel, detectability

一句话总结¶

提出 MCmark，一族基于多通道（Multi-Channel）的无偏水印算法，通过将词表分割为 \(l\) 个段并在选中段内提升 token 概率来嵌入统计信号，在保持 LLM 原始输出分布的同时，可检测性比现有无偏水印提升超 10%。

研究背景与动机¶

领域现状：随着 AI 文本生成能力超越人类，验证 AI 生成内容来源变得至关重要。水印技术通过在生成文本中嵌入统计信号来区分人类和 AI 文本。有偏水印（如 KGW）通过给 green list token 加 δ 来增强可检测性，但会扭曲原始分布从而降低文本质量。无偏水印保持原始分布不变，但可检测性较弱。
现有痛点：现有无偏水印方法面临三大实用问题——(1) Hu et al. 的 γ-reweight 方法需要访问 LM prompt 和 API 来做检测，不是 model-agnostic 的；(2) EXP-edit 检测需要上千次推理，时间成本极高；(3) DiPmark 虽然 model-agnostic 但检测准确率明显低于有偏水印（如 KGW δ=2.0 时 TPR@FPR=0.1% 为 98.79%，而 DiPmark 只有 78.77%）。
核心矛盾：无偏水印天然在检测性上弱于有偏水印——因为不改变分布，统计信号更弱。现有方法都基于"红绿列表二分法"（两个分布通道），这限制了信号强度的上限。
本文要解决什么？ 在严格保持无偏性的前提下，大幅提升可检测性和鲁棒性。核心想法是：从 2 个通道推广到 \(l\) 个通道。
切入角度：作者引入"分布通道"（Distribution Channel）这一抽象概念，将水印问题形式化为一个带约束的优化问题——最大化在水印键选中通道下生成对应段 token 的总概率，同时约束每个通道必须是有效概率分布且期望等于原始分布。
核心 idea 一句话：将词表均分为 \(l\) 段，构建 \(l\) 个分布通道，每个通道提升对应段的 token 概率，通过求解闭式最优解实现在保持无偏性前提下可检测性最大化。

方法详解¶

整体框架¶

MCmark 的 pipeline 分为生成和检测两阶段： - 生成阶段：给定 LLM 原始分布 \(P_M(\cdot|x_{1:t})\)，将词表 \(V\) 均分为 \(l\) 个段 \(V_1, \dots, V_l\)。根据秘密密钥 \(\mathsf{sk}\) 和前 \(n\) 个 token 的 n-gram 作为水印键，伪随机选择一个分布通道 \(P_i\)，从 \(P_i\) 中采样生成下一个 token。 - 检测阶段：给定生成文本和密钥，恢复每步的通道索引 \(i_t\)，统计 \(\Phi = \sum_{t=1}^{T} \mathbf{1}_{x_t \in V_{i_t}}\)。在零假设（无水印）下，\(\Phi\) 服从二项分布（成功率 \(1/l\)），通过假设检验判断是否有水印。

关键设计¶

分布通道（Distribution Channel）概念：
做什么：将水印后的分布空间抽象为一组"通道" \(\{P_1, \dots, P_l\}\)，每个通道是一个完整的概率分布
核心思路：在通道 \(P_i\) 中，属于 \(V_i\) 的 token 概率被提升；属于其他段的概率被相应降低。水印键决定选择哪个通道。关键约束是所有通道的加权平均必须恢复原始分布：\(\frac{1}{l} \sum_{i=1}^{l} P_i(x) = P_M(x|x_{1:t})\)
设计动机：之前的方法（DiPmark、γ-reweight、STA-1）本质上只有 2 个通道（红绿列表），限制了信号强度。推广到 \(l\) 个通道可以更大幅度地重分配概率
优化问题的闭式解：
做什么：找到在满足无偏约束下可检测性最大化的通道概率分配
核心思路：定义优化目标为 \(\max \sum_{i=1}^{l} P_{i,V_i}\)（最大化每个通道在其对应段上的总概率），约束为行和为 1（概率有效性）和列和等于 \(l \cdot P_{V_j}\)（无偏性）。最优解为闭式：\(P_{i,V_i} = \min\{1, l \cdot P_{V_i}\}\)，当 \(i \ne j\) 时 \(P_{i,V_j} = \frac{(1 - lP_{V_i})_+ (lP_{V_j} - 1)_+}{\sum_k (1 - lP_{V_k})_+}\)
设计动机：避免数值优化，直接闭式计算，确保时间效率与 KGW 等方法相当。且理论上可证这是全局最优
水印键设计与 n-gram 策略：
做什么：用秘密密钥 \(\mathsf{sk}\) 和前 \(n\) 个 token 的 n-gram 作为伪随机种子选择通道
核心思路：与 KGW 方法一致的密钥生成策略，保证了每个 token 的通道选择看似随机但可确定性恢复
设计动机：n-gram 依赖使得通道选择与上下文相关，增加了水印的不可预测性

理论分析：期望假阴性率¶

作者定义了期望假阴性率（Expected True-Negative Rate, \(E_{TN}\)）来量化可检测性。当 \(l=2\) 时： - DiPmark: \(E_{TN}^{\text{DiP}} = \max\{P_{V_r} - \alpha, 0\} + \max\{P_{V_r} - (1-\alpha), 0\}\) - STA-1: \(E_{TN}^{\text{STA}} = P_{V_r}^2\) - MCmark: \(E_{TN}^{\text{MCmark}} = |1/2 - P_{V_r}|\)

在 \(P_{V_r}\) 均匀分布于 \([0,1]\) 的假设下，MCmark 的期望 \(E_{TN}\) 为 \(1/4\)，低于 DiPmark 的 \((\alpha - 1/2)^2 + 1/4\) 和 STA-1 的 \(1/3\)，且方差最小（\(1/48\)），说明 MCmark 能更稳定地嵌入可检测信号。

鲁棒性-可检测性权衡¶

增大 \(l\) 的效果呈现权衡： - 可检测性：适度增大 \(l\) 能提升可检测性（更多通道 → 概率重分配更极端） - 鲁棒性：\(l\) 增大时，每段 \(V_i\) 变小，攻击者修改一个 token 后落入正确段的概率仅 \(1/l\)，这对鲁棒性有利；但过大的 \(l\) 导致 \(P_{V_i}\) 分布不均（某些段概率极低），反而增加假阴性

实验中 \(l=20\) 在检测性和鲁棒性间取得最佳平衡。

损失函数 / 训练策略¶

MCmark 不需要训练，在推理时通过修改采样策略嵌入水印。

实验关键数据¶

主实验：可检测性对比（LLaMA2 + C4 数据集）¶

方法	TPR@FPR=1%	TPR@FPR=0.1%	TPR@FPR=0.01%	Median p-value
KGW (δ=2.0, 有偏)	99.34%	98.79%	97.79%	6.58e-22
Unigram (δ=2.0, 有偏)	99.88%	99.52%	98.93%	5.39e-25
DiPmark (α=0.4)	87.66%	78.77%	71.77%	1.24e-7
DiPmark (α=0.3)	81.88%	69.88%	61.65%	5.28e-6
STA-1	84.93%	71.58%	57.76%	2.66e-5
γ-reweight	89.17%	81.79%	75.83%	4.47e-8
EXP-edit	89.01%	86.35%	-	2.00e-4
MCmark (l=20)	98.96%	98.38%	97.69%	8.10e-30

MCmark 在无偏水印中 TPR@FPR=0.1% 提升超 14%（98.38% vs 81.79%），且可媲美最强有偏水印 KGW (δ=2.0)。

鲁棒性对比（Token 替换攻击，TPR@FPR=0.1%）¶

方法	ε=0.05	ε=0.1	ε=0.2
DiPmark (α=0.4)	69.63%	58.13%	29.06%
STA-1	60.84%	47.15%	21.35%
EXP-edit	81.35%	78.27%	74.88%
MCmark (l=20)	97.11%	96.07%	88.79%

GPT 改写攻击鲁棒性¶

方法	TPR@FPR=1%	Median p-value	AUC
DiPmark (α=0.4)	6.4%	6.03e-1	0.4921
STA-1	11.6%	2.32e-1	0.6850
EXP-edit	17.9%	2.30e-1	0.6879
MCmark (l=20)	48.0%	1.26e-2	0.8592

消融实验：通道数 \(l\) 的影响¶

配置	说明
l=2	退化为红绿列表，可检测性接近 DiPmark，但理论最优解已优于 DiPmark
l=5~20	可检测性持续上升，鲁棒性仍保持高水平
l=20	最佳平衡点，TPR 和鲁棒性均最优
l>100	可检测性的 p-value 继续下降，但鲁棒性开始显著下降
l=32000 (=\|V\|)	每段仅 1 个 token，退化为 Gumbel-max，鲁棒性最差

关键发现¶

通道数 \(l\) 是核心超参数：\(l=20\) 为最优实践甜蜜点，在此设定下可检测性几乎追平最强有偏水印（δ=2.0 的 KGW），而鲁棒性远超所有无偏基线
无偏性验证：在 \(l\) 从 2 到 32000 的全范围内，MCmark 在翻译（BLEU）和摘要（困惑度）任务上均与无水印 baseline 一致，验证了理论无偏保证
GPT 改写攻击下 MCmark 仍保持 AUC=0.8592，远超所有竞品（最高仅 0.6879）——这在实际场景中极有意义，因为用户最可能使用 GPT 改写来去除水印
GPT 回译攻击下 MCmark 的 TPR@FPR=0.01% 高达 81.2%，而 DiPmark 仅 19.8%，STA-1 仅 11.1%
DIPPER 攻击（最强文本改写攻击）下所有方法都大幅退化，但 MCmark (AUC=0.695) 仍是最优

亮点与洞察¶

分布通道的概念极其优雅：将无偏水印问题统一为"如何分配概率到 \(l\) 个通道"的优化问题，使得核心算法只有一个公式（Eq. 3），且是闭式解。这种高度简洁的形式化让方法既有理论保证又容易实现
二分法到多分法的推广非常自然：之前所有方法都默认用红绿二分，MCmark 指出这不是必须的——\(l=20\) 时信号密度大幅增加。这个简单但反直觉的观察是全文最大贡献
可检测性-鲁棒性权衡的理论化：给出了清晰的权衡分析——\(l\) 越大可检测性越强但鲁棒性越弱（单 token 修改更可能破坏信号）。这一框架可以指导其他水印方法的设计
迁移潜力：多通道的设计思路可以迁移到图像水印、音频水印等领域——只要有离散 token 的概念，就可以做分段提升

局限性 / 可改进方向¶

\(l\) 的自适应选择：论文固定 \(l=20\)，但不同文本长度、不同领域的最优 \(l\) 可能不同。一个自适应的 \(l\) 选择策略（根据词表概率分布的熵动态调整）可能进一步提升性能
词表分割策略：目前使用均匀随机分割，但如果根据语义相似度分组（使得每段内的 token 语义相关），可能在不损失可检测性的同时提升文本自然度
长文本场景未充分验证：实验主要在短文本（C4 数据集片段）上进行，对于长文档（如论文、报告）的表现未知
与强改写攻击的博弈：虽然 GPT 改写下 AUC=0.8592，但 TPR@FPR=0.01% 仍只有 20.2%，说明在高精度需求场景下仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ 从二分推广到多分的思路直觉上简单但实际效果惊人，理论贡献扎实
实验充分度: ⭐⭐⭐⭐⭐ 涵盖多种攻击（token替换、GPT改写、回译、DIPPER），多个模型和数据集，消融详尽
写作质量: ⭐⭐⭐⭐ 数学推导清晰，实验组织有条理，符号系统有时需反复对照
价值: ⭐⭐⭐⭐ 对 LLM 水印的实用化有重要推动，\(l=20\) 的实践指导清晰，代码开源