跳转至

RingID: Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification

会议: ECCV 2024
arXiv: 2404.14055
代码: https://github.com/showlab/RingID
领域: 图像生成
关键词: 扩散模型水印, Tree-Ring水印, 多密钥识别, 频域水印, 分布偏移

一句话总结

本文深入分析了 Tree-Ring 水印方法的鲁棒性来源(发现分布偏移是其验证任务中意外的隐藏助力),揭示其在多密钥识别任务中的严重缺陷,并提出 RingID——一种多通道异构水印框架,通过离散化、无损嵌入和更圆环形设计,将2048个密钥的识别准确率从0.07提升至0.82。

研究背景与动机

领域现状:随着扩散模型生成的高质量图像大量传播,水印技术成为版权保护和溯源的关键手段。Tree-Ring 水印是一种将环形图案嵌入扩散模型初始噪声频域中心的方法,在水印验证(区分有/无水印图像)任务中展现出对旋转、JPEG压缩等攻击的强鲁棒性。

现有痛点:此前的研究只在验证场景下评估 Tree-Ring,从未考察其在多密钥识别(从多个候选密钥中匹配正确密钥)场景下的表现。而多密钥识别对于用户追踪和版权归属至关重要。

核心矛盾:作者首次发现 Tree-Ring 的鲁棒性并非全部来自环形图案设计,而是有相当部分来自水印嵌入过程中丢弃虚部导致的分布偏移。这种分布偏移在验证中帮助区分有/无水印图像(两类分布被拉开),但在识别中完全无用(不同密钥经历相同偏移)。

本文目标 (a) 揭示 Tree-Ring 鲁棒性的真实来源;(b) 暴露其在多密钥识别中的严重缺陷;(c) 设计一种系统性方案提升多密钥识别能力。

切入角度:从数学推导证明分布偏移因子为 \(\frac{\sqrt{3}}{2}\),并通过实验验证其在不同攻击下的贡献差异。

核心 idea:通过多通道异构水印框架融合不同类型水印的互补优势,配合离散化、无损嵌入和更圆环形等改进,系统性解决 Tree-Ring 在多密钥识别中的失败问题。

方法详解

整体框架

RingID 基于 Tree-Ring 但做了系统性增强。整体流程:在 StableDiffusion 的4通道初始噪声中,在通道3嵌入改进后的环形水印,在通道0嵌入高斯噪声水印。检测时通过 DDIM 反演恢复初始噪声,在频域提取水印并与所有候选密钥做最小距离匹配。

关键设计

  1. 多通道异构水印(MCH)框架:

    • 功能:在不同通道嵌入不同类型的水印,利用各自优势互补
    • 核心思路:匹配时计算所有水印通道中到参考密钥的最小加权 \(\ell_1\) 距离:\(\text{ID}(\hat{w}) = \arg\min_i \{ \min_{c \in C_w} [\lambda_c \|\hat{w}^c - w_i^c\|_1] \}\)
    • 设计动机:高斯噪声水印对非几何攻击鲁棒,环形水印对某些几何攻击鲁棒,两者互补。实验证明组合后可自适应选择当前攻击下最鲁棒的水印通道
  2. 离散化增强可区分性:

    • 功能:将环形图案的值从高斯连续采样改为离散的 \(\pm\alpha\)
    • 核心思路:n个环的密钥容量为 \(2^n\)\(\alpha\) 设为初始噪声的标准差(64)
    • 设计动机:连续高斯采样使不同密钥之间差异极小,难以区分;离散化大幅拉开密钥间距,显著提升有效容量
  3. 无损嵌入:

    • 功能:消除嵌入过程中丢弃虚部导致的图案损失
    • 核心思路:只在频域实部嵌入环形图案,保持虚部为空,使 \(X[u,v] = X_{cs}[u,v]\) 成立,确保 IFFT 后再 FFT 回来图案不变
    • 设计动机:原始 Tree-Ring 丢弃虚部后实际携带的图案与设计不一致,破坏了旋转对称性
  4. 空间域偏移防止旋转裁切:

    • 功能:将水印能量从四角移到中心,避免旋转时被裁掉
    • 核心思路:在空间域做 N/2 像素的循环移位,等价于频域乘以棋盘格 \((-1)^{u+v}\),再乘以衰减因子 \(\eta \in [0.8, 0.9]\) 抑制中心伪影
  5. 更圆的环形设计:

    • 功能:改进低分辨率下环形图案的圆度
    • 核心思路:通过在低分辨率画布上旋转单像素360度记录轨迹来绘制更圆的环,消除锯齿和非对称性

损失函数

水印嵌入和检测不涉及训练损失,核心是信号处理:FFT/IFFT 变换 + \(\ell_1\) 距离匹配。

实验关键数据

主实验

使用 StableDiffusion-V2,默认环形半径3-14,1000张水印/非水印图像。

方法 #密钥 Clean Rotate JPEG C&S Blur Noise Bright Avg(无C&S)
Tree-Ring 32 0.790 0.020 0.420 0.040 0.610 0.530 0.420 0.465
Tree-Ring 2048 0.200 0.000 0.040 0.000 0.090 0.070 0.060 0.077
RingID 32 1.000 1.000 1.000 0.530 0.990 1.000 0.960 0.992
RingID 2048 1.000 0.860 1.000 0.080 0.970 0.950 0.870 0.942

验证任务AUC:RingID (0.995) vs Tree-Ring (0.975),同时保持相似的 CLIP 分数 (0.365 vs 0.364) 和 FID (26.13 vs 25.93)。

消融实验

配置 Clean Rotate JPEG Blur Noise Avg
RingID 完整 1.000 0.860 1.000 0.970 0.950 0.819
去掉空间偏移 1.000 0.000 1.000 0.990 0.930 0.701
去掉无损嵌入 1.000 0.010 0.970 0.950 0.980 0.700
去掉更圆环形 1.000 0.620 0.990 0.890 0.970 0.774
去掉离散化 0.980 0.120 0.380 0.450 0.650 0.427
去掉异构水印 1.000 0.820 0.940 0.960 0.710 0.740

关键发现

  • 离散化贡献最大:去掉后平均准确率从0.819暴跌至0.427,说明密钥可区分性是多密钥识别的核心
  • 空间偏移和无损嵌入对旋转至关重要:去掉任一个,旋转下准确率降至接近0
  • Crop&Scale 是所有方法的共同弱点:频域缩放直接破坏图案,无法通过当前方案解决
  • 异构水印成功融合了噪声水印(JPEG鲁棒)和环形水印(旋转鲁棒)的优势

亮点与洞察

  • 分布偏移的发现极具洞察力:首次揭示丢弃虚部引入的分布偏移是 Tree-Ring 验证鲁棒性的"隐藏助手",数学证明偏移因子为 \(\frac{\sqrt{3}}{2}\)。这个发现改变了对该方法的理解
  • 多通道异构设计可迁移:将不同类型的水印放在不同通道的思路,可推广到任何需要抵抗多种攻击的水印系统
  • 离散化 trick 简单有效:从连续高斯改为二值 \(\pm\alpha\) 极大提升识别能力,代价极小

局限性

  • Crop&Scale 攻击下识别准确率仍然很低(0.08@2048密钥),这是频域水印的本质困难
  • 环形图案容量受限于环数(半径范围),大规模用户场景需要多通道扩展
  • 只在 StableDiffusion-V2 上验证,对其他扩散模型架构的适用性未知

评分

  • 新颖性: ⭐⭐⭐⭐ 分布偏移分析是新颖贡献,但各改进模块较为工程化
  • 实验充分度: ⭐⭐⭐⭐⭐ 验证+识别双任务评估,多种攻击,充分的消融
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,分析逻辑严密
  • 价值: ⭐⭐⭐⭐ 对扩散模型水印领域有重要推动,多密钥识别方向的开拓性工作

相关论文