On the Empirical Power of Goodness-of-Fit Tests in Watermark Detection¶

会议: NeurIPS 2025
arXiv: 2510.03944
代码: GitHub
领域: AI Safety / LLM Watermarking
关键词: 文本水印检测, 拟合优度检验, LLM水印, 统计检验, 鲁棒性

一句话总结¶

系统性地评估了八种经典拟合优度（GoF）检验在 LLM 文本水印检测中的效果，发现 GoF 检验在检测功效和鲁棒性上均显著优于现有基线方法。

研究背景与动机¶

LLM 生成的文本引发了内容真实性和版权问题，文本水印通过在生成文本中嵌入可检测的统计信号来验证内容来源。水印检测的核心是假设检验问题：在 \(H_0\) 下，枢轴统计量 \(Y_t = Y(w_t, \zeta_t)\) 独立同分布于已知分布 \(\mu_0\)；在 \(H_1\) 下偏离该分布。

这天然是一个拟合优度检验（GoF）问题：判断 i.i.d. 样本是否来自给定分布。然而，现有文献主要聚焦于设计新水印方案，而非提升检测效能。Li et al. 提出了截断 \(\phi\)-散度 GoF 检验，但仅分析了 Gumbel-max 水印，且依赖渐近假设。

核心问题：经典 GoF 检验在现代水印检测中的表现如何？

方法详解¶

整体框架¶

将水印检测统一为 GoF 检验框架。检测流程：（1）从文本序列计算枢轴统计量 \(Y_1, ..., Y_n\)；（2）计算 p-值 \(p_t = 1 - F_0(Y_t)\)；（3）用 GoF 检验统计量评估偏离程度；（4）根据临界值判定是否拒绝 \(H_0\)。

关键设计¶

八种 GoF 检验的统一评估: 包括 Kolmogorov-Smirnov (Kol)、Anderson-Darling (And)、Cramér-von Mises (Cra)、Kuiper (Kui)、Watson (Wat)、Neyman 光滑检验 (Ney)、Chi-squared (Chi) 和截断散度检验 (Phi)。每种检验用不同方式度量经验 CDF 与零假设 CDF 的偏离。
三种水印方案的适配: Gumbel-max（\(\mu_0 = U(0,1)\)）、逆变换水印（\(\mu_0(Y \leq r) = r^2\)）、Google SynthID（\(\mu_0\) 为 Irwin-Hall 分布）。绿红列表水印被排除，因为其二值枢轴统计量使 GoF 退化为原始检测规则。
低温优势分析: 低温下水印信号减弱但文本重复增多，引入结构化模式使经验 CDF 偏离零假设 CDF，GoF 检验能独特地利用这一效应——这是现有方法未开发的优势。

损失函数 / 训练策略¶

本文为评估性工作，无需训练。关键技术细节： - 第一类错误控制在 \(\alpha = 0.01\)，通过理论分布或 Monte Carlo 模拟调整临界值 - 大多数 GoF 检验的零分布无闭式解，使用大样本渐近近似 - 所有 GoF 检验对枢轴统计量的排列不变，检测结果不受顺序影响

实验关键数据¶

主实验¶

水印方案	温度	长度	Baseline	Chi	And	Kol	Phi
Gumbel-max	T=0.3	n=400	15.1%	2.9%	4.9%	4.7%	5.7%
Gumbel-max	T=0.7	n=200	0.6%	0.3%	0.5%	0.6%	0.3%
Inverse-tran	T=0.3	n=400	27.1%	-	9.3%	7.4%	12.1%

（表中数据为 Type II 错误率×100，越低越好）

消融实验¶

配置	指标	说明
不同温度 T∈{0.1,0.3,0.7,1.0}	Type II 错误率	GoF 在所有温度下优于 baseline
不同文本长度 n	检测功效	长文本优势更明显
删除编辑 r=0.1,0.2	鲁棒性	GoF 保持高检测功效
同义词替换 r=0.1,0.2	鲁棒性	GoF 表现稳健
信息丰富编辑 r=0.3,0.5	鲁棒性	GoF 在强攻击下仍有优势

关键发现¶

GoF 检验在几乎所有配置下都优于 baseline 检测方法
Chi-squared 检验在多个场景中表现最优，But And 和 Kol 也很有竞争力
低温（T=0.1）下 GoF 的优势最为显著，因为能利用文本重复模式
Type I 错误在所有 GoF 检验中都接近目标水平 0.01，控制良好
三种 LLM（OPT-1.3B, OPT-13B, Llama 3.1-8B）上结果一致

亮点与洞察¶

GoF 检验是"简单但强大且被低估的工具"——这一结论具有很强的实践指导意义
低温下文本重复给 GoF 带来独特优势的发现很有趣，解释了为何在不同温度下都能保持强检测力
统一框架使得不同水印方案的检测方法可以标准化
排除绿红列表水印的分析严谨，说明 GoF 在该场景下退化

局限与展望¶

实验主要在开源 LLM 上进行，未测试闭源商业模型（GPT-4 等）
仅考虑了文本完成和长文QA两种任务
GoF 检验的最优选择依赖于具体水印方案和场景，缺乏自动选择指南
未分析 GoF 检验的计算效率与延迟
理论方面缺乏渐近以外的有限样本分析

评分¶

新颖性: ⭐⭐⭐ 主要贡献在于系统评估而非方法创新，但发现有价值
实验充分度: ⭐⭐⭐⭐⭐ 8种GoF检验 × 3种水印 × 3种LLM × 4种温度 × 多种编辑，非常全面
写作质量: ⭐⭐⭐⭐ 条理清晰，统计背景解释充分
价值: ⭐⭐⭐⭐ 为水印检测提供了即插即用的检测工具箱，实用性强

补充细节¶

绿红列表水印被排除的原因：枢轴统计量是二值的（是否为绿色token），GoF 退化为计数检验
对 Neyman 检验使用 k=3 阶 Legendre 正交多项式
信息丰富编辑模拟了知道密钥的攻击者能选择性修改高信号 token 的最坏情况
所有 GoF 检验都是排列不变的，与 token 顺序无关，这是核心优势