BitMark: Watermarking Bitwise Autoregressive Image Generative Models¶
会议: NeurIPS 2025
arXiv: 2506.21209
代码: https://github.com/sprintml/BitMark
领域: 图像生成 / 水印 / AI安全
关键词: 比特级水印, 自回归图像生成, 模型坍缩预防, 放射性水印, Infinity
一句话总结¶
提出 BitMark——首个针对比特级自回归图像生成模型(Infinity、Instella)的水印方案,在生成过程中通过对 logit 加偏置将 bit 序列引向"绿色列表",实现可靠检测(z-test)、高图像保真度(FID 几乎不变)、对多种攻击的鲁棒性和放射性(训练在水印图上的下游模型也带有水印),为防止模型坍缩提供了关键工具。
研究背景与动机¶
-
领域现状:Infinity 和 Instella 等 SOTA 文生图模型通过比特级自回归(非传统 token 级)预测生成高质量图像,码本大小达 \(2^{64}\)。随着生成图像充斥互联网,模型训练时越来越多地训练在自己生成的数据上,导致模型坍缩(model collapse)。
-
现有痛点:
- 扩散模型水印方案(Tree-Ring、PRC、Stable Signature)不适用于自回归架构
- LLM 水印(KGW)在 token 级操作,但图像AR模型的 token 经编解码后不一致(token 重合率仅 ~2.4%)
-
现有扩散模型水印不具有放射性——在水印图上训练的新模型不会继承水印
-
核心矛盾:图像自回归模型的 token 经编码-解码循环后严重偏移(因连续图像空间的量化损失),导致 token 级水印信号大量丢失。但 bit 级的重合率高得多(~77.4%),提供了水印嵌入的可行切入点。
-
本文要解决什么? 设计一个在比特级操作的水印方案,满足:(a) 不降低图像质量,(b) 可靠检测,(c) 抵抗多种去除攻击,(d) 具有放射性。
-
切入角度:观察到 Infinity 模型中 bit 级重合率(77.4%)远高于 token 级(2.4%),因此在 bit 级嵌入水印信号比 token 级更鲁棒。
-
核心 idea 一句话:将 LLM 的 green/red list 水印思想从 token 级下沉到 bit 级,利用比特级自回归图像模型的生成过程嵌入可检测信号。
方法详解¶
整体框架¶
嵌入:将所有长度为 \(n\) 的 bit 序列分为绿色列表 \(G\) 和红色列表 \(R\) → 在每一步 bit 预测时,如果当前 bit 能完成 \(G\) 中的序列,给对应 logit 加偏置 \(\delta\) → 生成图像中绿色序列占比显著超过 50%。检测:对怀疑图像重新编码为 bit → 统计绿色序列占比 → z-test 判断是否超过自然图像期望。
关键设计¶
- 比特级 Green/Red List 水印嵌入:
- 做什么:在不修改模型权重的前提下将水印信号嵌入生成过程
- 核心思路:给定前缀 \(pre = (b_{j-(n-1)}, ..., b_{j-1})\) 和当前 bit \(b_j\),如果 \(pre + b_j \in G\),则 \(p_j = \text{softmax}(l_j^{(b_j)} + \delta)\),否则不加偏置。偏置 \(\delta\) 设得很小(如 1.0-2.0),主要影响高熵 bit(本身就接近 50/50 的 bit),因此对图像质量影响极小
-
设计动机:高熵 bit 被翻转后对图像影响最小(因为模型本身就不确定),而它们恰好是最容易被偏置影响的——完美匹配
-
z-test 统计检测:
- 做什么:可靠地判断图像是否含水印
- 核心思路:统计编码图像中绿色序列数 \(C\),计算 \(z = (C - \gamma T) / \sqrt{T\gamma(1-\gamma)}\),超过阈值则判定为水印图像。自然图像中 \(C \approx \gamma T\)(所有序列等概率),水印图像中 \(C\) 显著高于此值
-
设计动机:z-test 提供精确的假阳性率控制,可调节检测阈值在灵敏度和误报率间权衡
-
放射性(Radioactivity):
- 做什么:确保在水印图上训练的下游模型也产生带水印的输出
- 核心思路:水印改变了图像的统计分布(bit 序列中绿色占比偏高),下游模型在这种偏倚数据上训练后也会学到这种统计偏好,从而输出也带有水印信号
- 设计动机:防止第三方用水印图微调模型后生成"洗白"的图像——水印会传染到下游
损失函数 / 训练策略¶
- 无需训练——纯推理时嵌入
- 关键超参数:bit 序列长度 \(n\)、偏置强度 \(\delta\)、绿色列表占比 \(\gamma\)
- 密钥 \(\mathcal{K}\) 控制 green/red 列表,保证水印的私密性
实验关键数据¶
主实验¶
在 Infinity 和 Instella 上的水印性能:
| 指标 | 无水印 | BitMark (\(\delta\)=1.5) | 说明 |
|---|---|---|---|
| FID | 基线 | 接近基线(<1差异) | 图像质量几乎不受影响 |
| 绿色序列比例 | ~50% | ~65-70% | 水印信号显著 |
| 检测 AUC | - | >0.99 | 几乎完美检测 |
| 推理速度 | 基线 | 基线 | 零额外开销(仅加偏置) |
消融:鲁棒性对比¶
| 攻击类型 | 检测 AUC | 说明 |
|---|---|---|
| 无攻击 | >0.99 | 完美检测 |
| JPEG (quality=50) | >0.95 | 高度鲁棒 |
| 高斯噪声 | >0.95 | 高度鲁棒 |
| 高斯模糊 | >0.93 | 鲁棒 |
| 颜色抖动 | >0.95 | 高度鲁棒 |
| 随机裁剪 | >0.90 | 较鲁棒 |
| Watermark-in-the-Sand | >0.88 | 对专用去除攻击也鲁棒 |
| CtrlRegen | >0.85 | 对再生攻击也有效 |
| Bit-Flipper(定制攻击) | >0.80 | 即使针对性攻击也难以完全去除 |
关键发现¶
- bit 级 vs token 级:token 重合率仅 2.4%,bit 重合率 77.4%——bit 级操作是唯一可行的水印策略
- 高熵 bit 是关键:偏置主要影响高熵 bit(对图像值分布影响最小),确保图像质量不受影响
- 放射性实验验证:在水印 Infinity 图上微调扩散模型后,扩散模型的输出也被检测出水印
- 私有水印防护:攻击者无法在不知道密钥的情况下推断 green/red 列表
- 对比 LLM 水印:直接将 KGW 应用于 token 级的方案检测率不到 60%,BitMark 的 bit 级方案 >99%
亮点与洞察¶
- bit 级操作是核心创新:这一观察(bit 级编解码一致性远高于 token 级)既简单又深刻,直接决定了设计方向
- 放射性水印对防止模型坍缩有战略意义:不仅保护自己的模型,还让整个生态系统中的衍生模型可追溯
- 零推理开销:只在 logit 上加一个常数,不需要额外的神经网络推理或后处理
- 该技术可推广到未来任何使用比特级自回归生成的模型
局限性 / 可改进方向¶
- 仅在 Infinity 和 Instella 上验证,其他自回归架构(如 VAR 的 token 级预测)需要不同方案
- 检测需要访问模型的编码器(将图像重新编码为 bit),限制了第三方独立检测
- 绿色列表比例 \(\gamma\) 和偏置 \(\delta\) 的最优选择可能依赖于具体模型和分辨率
- 未在超高分辨率(>2K)图像上充分测试
- 理论最优 bit 序列长度 \(n\) 的选择缺乏严格分析
相关工作与启发¶
- vs KGW (Kirchenbauer et al.):LLM 水印的 green/red list 思想。BitMark 将其从 token 级迁移到 bit 级以适应图像AR模型的编解码不一致性
- vs Tree-Ring / PRC:扩散模型水印,在噪声空间嵌入信号。不适用于自回归模型,且缺乏放射性
- vs Stable Signature:微调解码器嵌入水印,需要模型修改。BitMark 零模型修改
- 放射性水印概念可迁移到其他生成模态(音频、视频自回归模型)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个比特级AR图像模型水印,bit级观察是关键洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 两个模型、多种攻击(含专用去除)、放射性验证、消融完整
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法形式化严谨
- 价值: ⭐⭐⭐⭐⭐ 对模型坍缩预防和生成内容追溯有直接实用价值