RingID: Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification¶
会议: ECCV 2024
arXiv: 2404.14055
代码: https://github.com/showlab/RingID
领域: 图像生成
关键词: 扩散模型水印, Tree-Ring水印, 多密钥识别, 频域水印, 分布偏移
一句话总结¶
本文深入分析了 Tree-Ring 水印方法的鲁棒性来源(发现分布偏移是其验证任务中意外的隐藏助力),揭示其在多密钥识别任务中的严重缺陷,并提出 RingID——一种多通道异构水印框架,通过离散化、无损嵌入和更圆环形设计,将2048个密钥的识别准确率从0.07提升至0.82。
研究背景与动机¶
领域现状:随着扩散模型生成的高质量图像大量传播,水印技术成为版权保护和溯源的关键手段。Tree-Ring 水印是一种将环形图案嵌入扩散模型初始噪声频域中心的方法,在水印验证(区分有/无水印图像)任务中展现出对旋转、JPEG压缩等攻击的强鲁棒性。
现有痛点:此前的研究只在验证场景下评估 Tree-Ring,从未考察其在多密钥识别(从多个候选密钥中匹配正确密钥)场景下的表现。而多密钥识别对于用户追踪和版权归属至关重要。
核心矛盾:作者首次发现 Tree-Ring 的鲁棒性并非全部来自环形图案设计,而是有相当部分来自水印嵌入过程中丢弃虚部导致的分布偏移。这种分布偏移在验证中帮助区分有/无水印图像(两类分布被拉开),但在识别中完全无用(不同密钥经历相同偏移)。
本文目标 (a) 揭示 Tree-Ring 鲁棒性的真实来源;(b) 暴露其在多密钥识别中的严重缺陷;(c) 设计一种系统性方案提升多密钥识别能力。
切入角度:从数学推导证明分布偏移因子为 \(\frac{\sqrt{3}}{2}\),并通过实验验证其在不同攻击下的贡献差异。
核心 idea:通过多通道异构水印框架融合不同类型水印的互补优势,配合离散化、无损嵌入和更圆环形等改进,系统性解决 Tree-Ring 在多密钥识别中的失败问题。
方法详解¶
整体框架¶
RingID 基于 Tree-Ring 但做了系统性增强。整体流程:在 StableDiffusion 的4通道初始噪声中,在通道3嵌入改进后的环形水印,在通道0嵌入高斯噪声水印。检测时通过 DDIM 反演恢复初始噪声,在频域提取水印并与所有候选密钥做最小距离匹配。
关键设计¶
-
多通道异构水印(MCH)框架:
- 功能:在不同通道嵌入不同类型的水印,利用各自优势互补
- 核心思路:匹配时计算所有水印通道中到参考密钥的最小加权 \(\ell_1\) 距离:\(\text{ID}(\hat{w}) = \arg\min_i \{ \min_{c \in C_w} [\lambda_c \|\hat{w}^c - w_i^c\|_1] \}\)
- 设计动机:高斯噪声水印对非几何攻击鲁棒,环形水印对某些几何攻击鲁棒,两者互补。实验证明组合后可自适应选择当前攻击下最鲁棒的水印通道
-
离散化增强可区分性:
- 功能:将环形图案的值从高斯连续采样改为离散的 \(\pm\alpha\)
- 核心思路:n个环的密钥容量为 \(2^n\),\(\alpha\) 设为初始噪声的标准差(64)
- 设计动机:连续高斯采样使不同密钥之间差异极小,难以区分;离散化大幅拉开密钥间距,显著提升有效容量
-
无损嵌入:
- 功能:消除嵌入过程中丢弃虚部导致的图案损失
- 核心思路:只在频域实部嵌入环形图案,保持虚部为空,使 \(X[u,v] = X_{cs}[u,v]\) 成立,确保 IFFT 后再 FFT 回来图案不变
- 设计动机:原始 Tree-Ring 丢弃虚部后实际携带的图案与设计不一致,破坏了旋转对称性
-
空间域偏移防止旋转裁切:
- 功能:将水印能量从四角移到中心,避免旋转时被裁掉
- 核心思路:在空间域做 N/2 像素的循环移位,等价于频域乘以棋盘格 \((-1)^{u+v}\),再乘以衰减因子 \(\eta \in [0.8, 0.9]\) 抑制中心伪影
-
更圆的环形设计:
- 功能:改进低分辨率下环形图案的圆度
- 核心思路:通过在低分辨率画布上旋转单像素360度记录轨迹来绘制更圆的环,消除锯齿和非对称性
损失函数¶
水印嵌入和检测不涉及训练损失,核心是信号处理:FFT/IFFT 变换 + \(\ell_1\) 距离匹配。
实验关键数据¶
主实验¶
使用 StableDiffusion-V2,默认环形半径3-14,1000张水印/非水印图像。
| 方法 | #密钥 | Clean | Rotate | JPEG | C&S | Blur | Noise | Bright | Avg(无C&S) |
|---|---|---|---|---|---|---|---|---|---|
| Tree-Ring | 32 | 0.790 | 0.020 | 0.420 | 0.040 | 0.610 | 0.530 | 0.420 | 0.465 |
| Tree-Ring | 2048 | 0.200 | 0.000 | 0.040 | 0.000 | 0.090 | 0.070 | 0.060 | 0.077 |
| RingID | 32 | 1.000 | 1.000 | 1.000 | 0.530 | 0.990 | 1.000 | 0.960 | 0.992 |
| RingID | 2048 | 1.000 | 0.860 | 1.000 | 0.080 | 0.970 | 0.950 | 0.870 | 0.942 |
验证任务AUC:RingID (0.995) vs Tree-Ring (0.975),同时保持相似的 CLIP 分数 (0.365 vs 0.364) 和 FID (26.13 vs 25.93)。
消融实验¶
| 配置 | Clean | Rotate | JPEG | Blur | Noise | Avg |
|---|---|---|---|---|---|---|
| RingID 完整 | 1.000 | 0.860 | 1.000 | 0.970 | 0.950 | 0.819 |
| 去掉空间偏移 | 1.000 | 0.000 | 1.000 | 0.990 | 0.930 | 0.701 |
| 去掉无损嵌入 | 1.000 | 0.010 | 0.970 | 0.950 | 0.980 | 0.700 |
| 去掉更圆环形 | 1.000 | 0.620 | 0.990 | 0.890 | 0.970 | 0.774 |
| 去掉离散化 | 0.980 | 0.120 | 0.380 | 0.450 | 0.650 | 0.427 |
| 去掉异构水印 | 1.000 | 0.820 | 0.940 | 0.960 | 0.710 | 0.740 |
关键发现¶
- 离散化贡献最大:去掉后平均准确率从0.819暴跌至0.427,说明密钥可区分性是多密钥识别的核心
- 空间偏移和无损嵌入对旋转至关重要:去掉任一个,旋转下准确率降至接近0
- Crop&Scale 是所有方法的共同弱点:频域缩放直接破坏图案,无法通过当前方案解决
- 异构水印成功融合了噪声水印(JPEG鲁棒)和环形水印(旋转鲁棒)的优势
亮点与洞察¶
- 分布偏移的发现极具洞察力:首次揭示丢弃虚部引入的分布偏移是 Tree-Ring 验证鲁棒性的"隐藏助手",数学证明偏移因子为 \(\frac{\sqrt{3}}{2}\)。这个发现改变了对该方法的理解
- 多通道异构设计可迁移:将不同类型的水印放在不同通道的思路,可推广到任何需要抵抗多种攻击的水印系统
- 离散化 trick 简单有效:从连续高斯改为二值 \(\pm\alpha\) 极大提升识别能力,代价极小
局限性¶
- Crop&Scale 攻击下识别准确率仍然很低(0.08@2048密钥),这是频域水印的本质困难
- 环形图案容量受限于环数(半径范围),大规模用户场景需要多通道扩展
- 只在 StableDiffusion-V2 上验证,对其他扩散模型架构的适用性未知
评分¶
- 新颖性: ⭐⭐⭐⭐ 分布偏移分析是新颖贡献,但各改进模块较为工程化
- 实验充分度: ⭐⭐⭐⭐⭐ 验证+识别双任务评估,多种攻击,充分的消融
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,分析逻辑严密
- 价值: ⭐⭐⭐⭐ 对扩散模型水印领域有重要推动,多密钥识别方向的开拓性工作
相关论文¶
- [ECCV 2024] Robust-Wide: Robust Watermarking against Instruction-driven Image Editing
- [ECCV 2024] M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models
- [ACL 2026] AFMRL: Attribute-Enhanced Fine-Grained Multi-Modal Representation Learning in E-commerce
- [ECCV 2024] OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models
- [NeurIPS 2025] Tree-Guided Diffusion Planner