Watermark-based Detection and Attribution of AI-Generated Content¶

会议: ICLR 2026
arXiv: 2404.04254
代码: 无
领域: AI Safety
关键词: watermark, attribution, AI-generated content, detection, digital forensics

一句话总结¶

首次系统性研究基于水印的AI生成内容用户级检测与溯源，提供了理论分析（TDR/FDR/TAR界）、高效水印选择算法（A-BSTA）和跨模态（图像+文本）实验验证，证明检测和溯源继承了水印方法本身的准确性与（非）鲁棒性。

研究背景与动机¶

生成式AI（如DALL-E、Midjourney、ChatGPT）能生成高度逼真的内容，带来虚假信息、版权争议等伦理问题。Google、OpenAI、Microsoft等公司已部署水印技术用于AI生成内容的检测（detection），但现有文献主要关注"用户无关"的检测——即所有内容嵌入相同水印，只判断是否为AI生成。

本文指出了更进一步的需求：溯源（attribution）。即在检测到内容为AI生成后，还需追溯到具体是哪个注册用户生成了该内容。这对于执法机关调查网络犯罪（如虚假信息传播）至关重要。尽管溯源的重要性日益增长，但相关研究几乎空白，本文旨在填补这一空白。

核心挑战在于：当用户数量极大（如100,000甚至1,000,000）时，如何确保每个用户的水印足够独特，使得溯源准确率保持高水平，同时不显著增加误检率。

方法详解¶

整体框架¶

系统分为三个阶段： 1. 注册阶段：用户注册时，服务商为其选择一个唯一水印（比特串）存入数据库 2. 生成阶段：用户生成内容时，其水印通过编码器嵌入内容中 3. 检测与溯源阶段：从待检内容中解码水印，若与某用户水印的比特准确率（Bitwise Accuracy, BA）超过阈值τ则判定为AI生成；进一步将内容归属于BA最高的用户

关键设计¶

检测机制：内容C被检测为AI生成当且仅当 \(\max_i BA(D(C), w_i) \geq \tau\)，其中D是解码器，\(w_i\)是用户水印，\(\tau > 0.5\) 是检测阈值。
溯源机制：在检测通过后，归属于 \(i^* = \arg\max_i BA(D(C), w_i)\)，即解码水印与之最相似的用户。
水印选择算法：为提升溯源性能，需最小化用户水印间的最大成对BA。本文将其形式化为优化问题：\(\min_{w_s} \max_{i} BA(w_i, w_s)\)，并证明该问题等价于NP-hard的最远字符串问题。提出A-BSTA（近似有界搜索树算法）：
- 以随机水印而非\(\neg w_1\)初始化（提升性能）
- 限制递归深度为常数d=8（提升效率，时间复杂度降为\(O(snm^d)\)）
- 从小m开始递增搜索直到找到满足条件的水印

理论分析¶

定义三个核心评估指标： - TDR_i（真检测率）：用户i的AI生成内容被正确检测的概率 - FDR（误检率）：非AI内容被误判为AI生成的概率
- TAR_i（真溯源率）：用户i的内容被正确溯源的概率

基于\(\beta\)-accurate和\(\gamma\)-random水印定义：

Theorem 1：TDR下界 = \(Pr(n_i \geq \tau n) + Pr(n_i \leq n - \tau n - \bar{\alpha_i} n)\)，其中\(n_i \sim B(n, \beta_i)\)
Theorem 3：FDR上界 = \(1 - Pr(n' < \tau n)^s\)，其中\(n' \sim B(n, 0.5+\gamma)\)
Theorem 4：TAR下界 = \(Pr(n_i \geq \max\{\lfloor\frac{1+\bar{\alpha_i}}{2}n\rfloor+1, \tau n\})\)

关键洞察：当\(\tau > \frac{1+\bar{\alpha_i}}{2}\)时，TDR和TAR的下界近似相等，即检测即溯源。

实验关键数据¶

主实验¶

实验在Stable Diffusion、Midjourney、DALL-E 2三个模型上进行，使用HiDDeN（学习型水印方法），默认设置：s=100,000用户、n=64位水印、τ=0.9。

场景	平均TDR	平均TAR	FDR	最差1%TAR
无后处理	≈1.0	≈1.0	≈0	>0.94
JPEG(Q=90)	高	高	≈0	略降
对抗攻击(黑盒)	0	0	-	图像质量严重下降

水印选择算法对比¶

方法	平均生成时间	最大成对BA	最差用户TAR
Random	0.01ms	最大	最低
NRG	2.11ms	中等	中等
A-BSTA	24ms	<0.74	最高

消融实验¶

配置	关键指标	说明
用户数s: 10→1M	TDR/TAR略降，FDR略升	s控制TDR-FDR权衡
水印长度n: 32→80	n=48/64最优	过长水印影响编解码准确性
阈值τ: 0.7→0.95	TDR/TAR和FDR同向变化	需权衡取舍

关键发现¶

检测和溯源在无后处理时准确率极高，85%用户TAR=1.0
对抗训练的HiDDeN对常规后处理（JPEG、高斯模糊等）鲁棒
理论下界与实验TDR/TAR吻合良好，但FDR上界较松
A-BSTA以24ms/水印的可接受代价，显著提升最差用户性能
方法同样适用于AI生成文本（使用AWT水印方法）

亮点与洞察¶

理论与实践统一：推导了适用于任意水印方法的TDR/FDR/TAR界，且需要的\(\beta\)-accurate和\(\gamma\)-random参数可从实验中估计
"检测即溯源"洞察：当τ足够大时，一旦检测通过则自动完成溯源，简化了系统设计
NP-hard问题的实用解法：将水印选择与最远字符串问题关联，借鉴理论计算机科学的算法
跨模态通用性：同一框架适用于图像和文本的检测与溯源

局限与展望¶

白盒对抗攻击下水印方法仍不鲁棒（TDR/TAR可降为0），这是水印方法本身的固有限制
理论分析假设水印比特独立，实际可能不完全成立
FDR的理论上界较松，尤其在bitwise相关性较强时
实验图像分辨率较低（128×128），更高分辨率的效果有待验证
水印选择算法在用户数极大时仍有优化空间

评分¶

新颖性: ⭐⭐⭐⭐ （首次系统性研究水印溯源，但检测本身不新）
实验充分度: ⭐⭐⭐⭐ （三个GenAI模型+文本+多种后处理场景）
写作质量: ⭐⭐⭐⭐⭐ （理论清晰，实验详实，框架完整）
价值: ⭐⭐⭐⭐ （实用性强，对GenAI服务商有直接参考价值）