Watermarking Autoregressive Image Generation¶

会议: NeurIPS 2025
arXiv: 2506.16349
代码: https://github.com/facebookresearch/wmar (有)
领域: 图像生成 / AI 水印
关键词: 自回归图像生成, 水印, 反向循环一致性, Token 级水印, LLM 水印适配

一句话总结¶

首次将 LLM 水印技术（KGW green/red scheme）适配到自回归图像生成模型的 token 层，识别并解决了关键挑战——反向循环一致性（RCC）不足，通过 tokenizer-detokenizer 微调和水印同步层实现了鲁棒的、具有理论保证的图像水印检测。

研究背景与动机¶

自回归图像生成模型（DALL-E、Chameleon、RAR 等）通过将图像离散化为 token 序列后用 Transformer 生成，已成为扩散模型的重要替代。然而，其输出的溯源追踪尚无有效方案。

现有水印方案的不足： - 后处理水印（修改像素）：模型无关但对对抗性攻击脆弱，缺乏理论 p-value 保证 - 扩散模型水印：专为扩散生成设计，不适用于自回归模型 - LLM 水印（KGW）：在文本 token 上效果好，但从未被适配到图像 token

核心挑战——反向循环一致性（RCC）：LLM 水印检测需要将生成内容 re-tokenize 后检查 green token 比例。对文本，BPE tokenizer 的 RCC 很高（token match ≈0.995）。但对图像 VQ tokenizer，生成的 token → 解码为图像 → 重新编码回 token，约 1/3 的 token 会改变（TM ≈ 0.66）。加上 JPEG 压缩等变换后更是降至 0.31，几何变换（翻转、旋转）则降至接近 0。这是因为： 1. VQ tokenizer 训练目标是前向循环一致性（FCC），解码后的图像 off-manifold 2. 空间敏感性导致语义保持的编辑也会改变大部分 token

方法详解¶

整体框架¶

生成时：直接在自回归 token 序列上应用 KGW 水印（对 green token logit 加 \(\delta\)）
检测时：图像 → re-tokenize → 统计 green token 数量 → 计算 p-value
核心改进：(a) 微调 detokenizer/encoder 提升 RCC；(b) 水印同步层应对几何变换

关键设计¶

RCC 微调（Section 3.1）：
- 保持编码器 \(E\)、量化器 \(Q_C\)、码本 \(C\) 不变（避免重训自回归模型）
- 仅微调解码器 \(D\) 和编码器副本 \(E'\)（\(E'\) 仅用于检测）
- RCC 损失：\(\mathcal{L}_{RCC}(s) = \mathbb{E}_{a \sim \mathcal{A}} \| \hat{z} - E'(a(D(\hat{z}))) \|_2^2\)，目标是让解码-编码循环后的 soft latents 逼近原始 hard latents \(\hat{z} = C_s\)
- 训练时随机采样数据增强（JPEG、亮度、微小旋转等），使 RCC 对 valuemetric 变换也鲁棒
- 正则化：\(\mathcal{L}_{reg} = \|D(\hat{z}) - D_0(\hat{z})\|_2^2 + \mathcal{L}_{LPIPS}\)，保持解码质量不退化
- 总损失：\(\mathcal{L} = \mathcal{L}_{RCC} + \lambda \cdot \mathcal{L}_{reg}\)
水印同步层（Section 3.2）：
- 几何变换（翻转、旋转）会彻底打乱 token 对应关系，RCC 微调无法解决
- 方案：利用 localized watermark [Sander et al.] 在图像四象限嵌入 4 个固定 32-bit 同步消息
- 检测时：遍历旋转角度网格，找到最佳分离四个消息的正交线对，由此估计并反转几何变换
- 反转后再运行原始 token 级水印检测器获取 p-value
跨模态联合检测：
- 对混合模态输出（如 Chameleon 的图文交织），对各 sample 的 score \(S^{(i)}\), \(T^{(i)}\), \(h^{(i)}\) 求和，去重后统一计算 p-value
- 跨文本和图像 token 的联合检测进一步提升检测置信度

损失函数 / 训练策略¶

在 50,000 张 ImageNet 训练图像的 token 上训练 10 epochs。Taming: 22h/16 V100；Chameleon: 2.5h/8 H200；RAR-XL: 0.5h/8 H200。水印参数 \(\delta=2\), \(\gamma=0.25\)。

实验关键数据¶

主实验（TPR@1% FPR）¶

变体	无变换	Valuemetric	Geometric	对抗攻击	神经压缩
Base	0.99	0.26	0.01	0.43	0.48
FT	1.00	0.45	0.01	0.70	0.71
FT+Augs	1.00	0.92	0.01	0.70	0.79
FT+Augs+Sync	0.98	0.83	0.82	0.69	0.80

RCC 微调将 valuemetric 鲁棒性从 0.26 提升到 0.92；同步层将 geometric 鲁棒性从 0.01 提升到 0.82。

消融实验（Token Match 和生成质量）¶

配置	Token Match (原始)	Token Match (JPEG Q=25)	FID
原始 tokenizer	0.66	0.31	16.7
FT	>0.80	~0.55	≤16.7
FT+Augs	>0.80	~0.70	≤16.7
FT+Augs+Sync	>0.80	~0.70	17.3

微调显著提升 token match，FID 几乎不变（水印不损害生成质量）。

关键发现¶

RCC 是水印鲁棒性的核心瓶颈：原始 VQ tokenizer 的 TM 仅 0.66，微调后超过 0.80
微调不仅提升 valuemetric 鲁棒性，还意外地提升了对神经压缩和扩散纯化攻击的鲁棒性
同步层解决了几何变换这一根本性挑战，但对 valuemetric 鲁棒性有轻微tradeoff
对比后处理方法（CIN、MBRS、Trustmark、WAM）：本文方法在扩散纯化和神经压缩上更鲁棒
三个模型（Taming、Chameleon、RAR-XL）上结论一致，证明方法的通用性

亮点与洞察¶

RCC 问题的发现和解决是本文最大的贡献：精确诊断了 LLM 水印技术迁移到图像 token 的核心障碍
微调方案极其轻量（仅 decoder 和 encoder 副本），不需要重训自回归模型
跨模态统一检测的 p-value 计算保持了理论严谨性（二项分布检验）
同步层的思路（用辅助信号估计变换 → 反转变换 → 检测水印）具有通用性

局限与展望¶

同步层假设裁剪保留一个角落，对任意裁剪需更复杂的同步模式
同步层和 valuemetric 鲁棒性之间存在 tradeoff（同步信号被破坏导致错误反转）
仅研究零比特水印（检测有无），未探索多比特消息嵌入
对 VAR 等非标准自回归架构的适用性有待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次研究自回归图像生成水印，RCC 问题的发现和解决方案均为原创
实验充分度: ⭐⭐⭐⭐⭐ 3 个模型、多种攻击（valuemetric/geometric/对抗/压缩）、与后处理方法对比
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，挑战分析深入，实验全面
价值: ⭐⭐⭐⭐⭐ 为快速发展的自回归图像生成领域填补了水印溯源的重要空白