Watermark-based Detection and Attribution of AI-Generated Content¶
会议: ICLR 2026
arXiv: 2404.04254
代码: 无
领域: AI Safety
关键词: watermark, attribution, AI-generated content, detection, digital forensics
一句话总结¶
首次系统性研究基于水印的AI生成内容用户级检测与溯源,提供了理论分析(TDR/FDR/TAR界)、高效水印选择算法(A-BSTA)和跨模态(图像+文本)实验验证,证明检测和溯源继承了水印方法本身的准确性与(非)鲁棒性。
研究背景与动机¶
生成式AI(如DALL-E、Midjourney、ChatGPT)能生成高度逼真的内容,带来虚假信息、版权争议等伦理问题。Google、OpenAI、Microsoft等公司已部署水印技术用于AI生成内容的检测(detection),但现有文献主要关注"用户无关"的检测——即所有内容嵌入相同水印,只判断是否为AI生成。
本文指出了更进一步的需求:溯源(attribution)。即在检测到内容为AI生成后,还需追溯到具体是哪个注册用户生成了该内容。这对于执法机关调查网络犯罪(如虚假信息传播)至关重要。尽管溯源的重要性日益增长,但相关研究几乎空白,本文旨在填补这一空白。
核心挑战在于:当用户数量极大(如100,000甚至1,000,000)时,如何确保每个用户的水印足够独特,使得溯源准确率保持高水平,同时不显著增加误检率。
方法详解¶
整体框架¶
系统分为三个阶段: 1. 注册阶段:用户注册时,服务商为其选择一个唯一水印(比特串)存入数据库 2. 生成阶段:用户生成内容时,其水印通过编码器嵌入内容中 3. 检测与溯源阶段:从待检内容中解码水印,若与某用户水印的比特准确率(Bitwise Accuracy, BA)超过阈值τ则判定为AI生成;进一步将内容归属于BA最高的用户
关键设计¶
-
检测机制:内容C被检测为AI生成当且仅当 \(\max_i BA(D(C), w_i) \geq \tau\),其中D是解码器,\(w_i\)是用户水印,\(\tau > 0.5\) 是检测阈值。
-
溯源机制:在检测通过后,归属于 \(i^* = \arg\max_i BA(D(C), w_i)\),即解码水印与之最相似的用户。
-
水印选择算法:为提升溯源性能,需最小化用户水印间的最大成对BA。本文将其形式化为优化问题:\(\min_{w_s} \max_{i} BA(w_i, w_s)\),并证明该问题等价于NP-hard的最远字符串问题。提出A-BSTA(近似有界搜索树算法):
- 以随机水印而非\(\neg w_1\)初始化(提升性能)
- 限制递归深度为常数d=8(提升效率,时间复杂度降为\(O(snm^d)\))
- 从小m开始递增搜索直到找到满足条件的水印
理论分析¶
定义三个核心评估指标:
- TDR_i(真检测率):用户i的AI生成内容被正确检测的概率
- FDR(误检率):非AI内容被误判为AI生成的概率
- TAR_i(真溯源率):用户i的内容被正确溯源的概率
基于\(\beta\)-accurate和\(\gamma\)-random水印定义:
- Theorem 1:TDR下界 = \(Pr(n_i \geq \tau n) + Pr(n_i \leq n - \tau n - \bar{\alpha_i} n)\),其中\(n_i \sim B(n, \beta_i)\)
- Theorem 3:FDR上界 = \(1 - Pr(n' < \tau n)^s\),其中\(n' \sim B(n, 0.5+\gamma)\)
- Theorem 4:TAR下界 = \(Pr(n_i \geq \max\{\lfloor\frac{1+\bar{\alpha_i}}{2}n\rfloor+1, \tau n\})\)
关键洞察:当\(\tau > \frac{1+\bar{\alpha_i}}{2}\)时,TDR和TAR的下界近似相等,即检测即溯源。
实验关键数据¶
主实验¶
实验在Stable Diffusion、Midjourney、DALL-E 2三个模型上进行,使用HiDDeN(学习型水印方法),默认设置:s=100,000用户、n=64位水印、τ=0.9。
| 场景 | 平均TDR | 平均TAR | FDR | 最差1%TAR |
|---|---|---|---|---|
| 无后处理 | ≈1.0 | ≈1.0 | ≈0 | >0.94 |
| JPEG(Q=90) | 高 | 高 | ≈0 | 略降 |
| 对抗攻击(黑盒) | 0 | 0 | - | 图像质量严重下降 |
水印选择算法对比¶
| 方法 | 平均生成时间 | 最大成对BA | 最差用户TAR |
|---|---|---|---|
| Random | 0.01ms | 最大 | 最低 |
| NRG | 2.11ms | 中等 | 中等 |
| A-BSTA | 24ms | <0.74 | 最高 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 用户数s: 10→1M | TDR/TAR略降,FDR略升 | s控制TDR-FDR权衡 |
| 水印长度n: 32→80 | n=48/64最优 | 过长水印影响编解码准确性 |
| 阈值τ: 0.7→0.95 | TDR/TAR和FDR同向变化 | 需权衡取舍 |
关键发现¶
- 检测和溯源在无后处理时准确率极高,85%用户TAR=1.0
- 对抗训练的HiDDeN对常规后处理(JPEG、高斯模糊等)鲁棒
- 理论下界与实验TDR/TAR吻合良好,但FDR上界较松
- A-BSTA以24ms/水印的可接受代价,显著提升最差用户性能
- 方法同样适用于AI生成文本(使用AWT水印方法)
亮点与洞察¶
- 理论与实践统一:推导了适用于任意水印方法的TDR/FDR/TAR界,且需要的\(\beta\)-accurate和\(\gamma\)-random参数可从实验中估计
- "检测即溯源"洞察:当τ足够大时,一旦检测通过则自动完成溯源,简化了系统设计
- NP-hard问题的实用解法:将水印选择与最远字符串问题关联,借鉴理论计算机科学的算法
- 跨模态通用性:同一框架适用于图像和文本的检测与溯源
局限与展望¶
- 白盒对抗攻击下水印方法仍不鲁棒(TDR/TAR可降为0),这是水印方法本身的固有限制
- 理论分析假设水印比特独立,实际可能不完全成立
- FDR的理论上界较松,尤其在bitwise相关性较强时
- 实验图像分辨率较低(128×128),更高分辨率的效果有待验证
- 水印选择算法在用户数极大时仍有优化空间
相关工作与启发¶
本文将数字水印领域(非学习型如Tree-Ring、学习型如HiDDeN)与AI安全领域结合。与用户无关的检测不同,用户感知的溯源为每个用户分配唯一水印,实现了从"是否AI生成"到"谁生成的"的跨越。A-BSTA算法源自理论计算机科学中最远字符串问题的研究,体现了跨领域方法迁移的价值。
评分¶
- 新颖性: ⭐⭐⭐⭐ (首次系统性研究水印溯源,但检测本身不新)
- 实验充分度: ⭐⭐⭐⭐ (三个GenAI模型+文本+多种后处理场景)
- 写作质量: ⭐⭐⭐⭐⭐ (理论清晰,实验详实,框架完整)
- 价值: ⭐⭐⭐⭐ (实用性强,对GenAI服务商有直接参考价值)
相关论文¶
- [NeurIPS 2025] Adversarial Paraphrasing: A Universal Attack for Humanizing AI-Generated Text
- [NeurIPS 2025] On the Empirical Power of Goodness-of-Fit Tests in Watermark Detection
- [ICLR 2026] Veritas: Generalizable Deepfake Detection via Pattern-Aware Reasoning
- [NeurIPS 2025] DNA-DetectLLM: Unveiling AI-Generated Text via a DNA-Inspired Mutation-Repair Paradigm
- [ICLR 2026] Improving the Trade-off Between Watermark Strength and Speculative Sampling Efficiency for Language Models