跳转至

BitMark: Watermarking Bitwise Autoregressive Image Generative Models

会议: NeurIPS 2025
arXiv: 2506.21209
代码: https://github.com/sprintml/BitMark
领域: 图像生成 / 水印 / AI安全
关键词: 比特级水印, 自回归图像生成, 模型坍缩预防, 放射性水印, Infinity

一句话总结

提出 BitMark——首个针对比特级自回归图像生成模型(Infinity、Instella)的水印方案,在生成过程中通过对 logit 加偏置将 bit 序列引向"绿色列表",实现可靠检测(z-test)、高图像保真度(FID 几乎不变)、对多种攻击的鲁棒性和放射性(训练在水印图上的下游模型也带有水印),为防止模型坍缩提供了关键工具。

研究背景与动机

  1. 领域现状:Infinity 和 Instella 等 SOTA 文生图模型通过比特级自回归(非传统 token 级)预测生成高质量图像,码本大小达 \(2^{64}\)。随着生成图像充斥互联网,模型训练时越来越多地训练在自己生成的数据上,导致模型坍缩(model collapse)。

  2. 现有痛点

  3. 扩散模型水印方案(Tree-Ring、PRC、Stable Signature)不适用于自回归架构
  4. LLM 水印(KGW)在 token 级操作,但图像AR模型的 token 经编解码后不一致(token 重合率仅 ~2.4%)
  5. 现有扩散模型水印不具有放射性——在水印图上训练的新模型不会继承水印

  6. 核心矛盾:图像自回归模型的 token 经编码-解码循环后严重偏移(因连续图像空间的量化损失),导致 token 级水印信号大量丢失。但 bit 级的重合率高得多(~77.4%),提供了水印嵌入的可行切入点。

  7. 本文要解决什么? 设计一个在比特级操作的水印方案,满足:(a) 不降低图像质量,(b) 可靠检测,(c) 抵抗多种去除攻击,(d) 具有放射性。

  8. 切入角度:观察到 Infinity 模型中 bit 级重合率(77.4%)远高于 token 级(2.4%),因此在 bit 级嵌入水印信号比 token 级更鲁棒。

  9. 核心 idea 一句话:将 LLM 的 green/red list 水印思想从 token 级下沉到 bit 级,利用比特级自回归图像模型的生成过程嵌入可检测信号。

方法详解

整体框架

嵌入:将所有长度为 \(n\) 的 bit 序列分为绿色列表 \(G\) 和红色列表 \(R\) → 在每一步 bit 预测时,如果当前 bit 能完成 \(G\) 中的序列,给对应 logit 加偏置 \(\delta\) → 生成图像中绿色序列占比显著超过 50%。检测:对怀疑图像重新编码为 bit → 统计绿色序列占比 → z-test 判断是否超过自然图像期望。

关键设计

  1. 比特级 Green/Red List 水印嵌入:
  2. 做什么:在不修改模型权重的前提下将水印信号嵌入生成过程
  3. 核心思路:给定前缀 \(pre = (b_{j-(n-1)}, ..., b_{j-1})\) 和当前 bit \(b_j\),如果 \(pre + b_j \in G\),则 \(p_j = \text{softmax}(l_j^{(b_j)} + \delta)\),否则不加偏置。偏置 \(\delta\) 设得很小(如 1.0-2.0),主要影响高熵 bit(本身就接近 50/50 的 bit),因此对图像质量影响极小
  4. 设计动机:高熵 bit 被翻转后对图像影响最小(因为模型本身就不确定),而它们恰好是最容易被偏置影响的——完美匹配

  5. z-test 统计检测:

  6. 做什么:可靠地判断图像是否含水印
  7. 核心思路:统计编码图像中绿色序列数 \(C\),计算 \(z = (C - \gamma T) / \sqrt{T\gamma(1-\gamma)}\),超过阈值则判定为水印图像。自然图像中 \(C \approx \gamma T\)(所有序列等概率),水印图像中 \(C\) 显著高于此值
  8. 设计动机:z-test 提供精确的假阳性率控制,可调节检测阈值在灵敏度和误报率间权衡

  9. 放射性(Radioactivity):

  10. 做什么:确保在水印图上训练的下游模型也产生带水印的输出
  11. 核心思路:水印改变了图像的统计分布(bit 序列中绿色占比偏高),下游模型在这种偏倚数据上训练后也会学到这种统计偏好,从而输出也带有水印信号
  12. 设计动机:防止第三方用水印图微调模型后生成"洗白"的图像——水印会传染到下游

损失函数 / 训练策略

  • 无需训练——纯推理时嵌入
  • 关键超参数:bit 序列长度 \(n\)、偏置强度 \(\delta\)、绿色列表占比 \(\gamma\)
  • 密钥 \(\mathcal{K}\) 控制 green/red 列表,保证水印的私密性

实验关键数据

主实验

在 Infinity 和 Instella 上的水印性能:

指标 无水印 BitMark (\(\delta\)=1.5) 说明
FID 基线 接近基线(<1差异) 图像质量几乎不受影响
绿色序列比例 ~50% ~65-70% 水印信号显著
检测 AUC - >0.99 几乎完美检测
推理速度 基线 基线 零额外开销(仅加偏置)

消融:鲁棒性对比

攻击类型 检测 AUC 说明
无攻击 >0.99 完美检测
JPEG (quality=50) >0.95 高度鲁棒
高斯噪声 >0.95 高度鲁棒
高斯模糊 >0.93 鲁棒
颜色抖动 >0.95 高度鲁棒
随机裁剪 >0.90 较鲁棒
Watermark-in-the-Sand >0.88 对专用去除攻击也鲁棒
CtrlRegen >0.85 对再生攻击也有效
Bit-Flipper(定制攻击) >0.80 即使针对性攻击也难以完全去除

关键发现

  • bit 级 vs token 级:token 重合率仅 2.4%,bit 重合率 77.4%——bit 级操作是唯一可行的水印策略
  • 高熵 bit 是关键:偏置主要影响高熵 bit(对图像值分布影响最小),确保图像质量不受影响
  • 放射性实验验证:在水印 Infinity 图上微调扩散模型后,扩散模型的输出也被检测出水印
  • 私有水印防护:攻击者无法在不知道密钥的情况下推断 green/red 列表
  • 对比 LLM 水印:直接将 KGW 应用于 token 级的方案检测率不到 60%,BitMark 的 bit 级方案 >99%

亮点与洞察

  • bit 级操作是核心创新:这一观察(bit 级编解码一致性远高于 token 级)既简单又深刻,直接决定了设计方向
  • 放射性水印对防止模型坍缩有战略意义:不仅保护自己的模型,还让整个生态系统中的衍生模型可追溯
  • 零推理开销:只在 logit 上加一个常数,不需要额外的神经网络推理或后处理
  • 该技术可推广到未来任何使用比特级自回归生成的模型

局限性 / 可改进方向

  • 仅在 Infinity 和 Instella 上验证,其他自回归架构(如 VAR 的 token 级预测)需要不同方案
  • 检测需要访问模型的编码器(将图像重新编码为 bit),限制了第三方独立检测
  • 绿色列表比例 \(\gamma\) 和偏置 \(\delta\) 的最优选择可能依赖于具体模型和分辨率
  • 未在超高分辨率(>2K)图像上充分测试
  • 理论最优 bit 序列长度 \(n\) 的选择缺乏严格分析

相关工作与启发

  • vs KGW (Kirchenbauer et al.):LLM 水印的 green/red list 思想。BitMark 将其从 token 级迁移到 bit 级以适应图像AR模型的编解码不一致性
  • vs Tree-Ring / PRC:扩散模型水印,在噪声空间嵌入信号。不适用于自回归模型,且缺乏放射性
  • vs Stable Signature:微调解码器嵌入水印,需要模型修改。BitMark 零模型修改
  • 放射性水印概念可迁移到其他生成模态(音频、视频自回归模型)

评分

  • 新颖性: ⭐⭐⭐⭐ 首个比特级AR图像模型水印,bit级观察是关键洞察
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个模型、多种攻击(含专用去除)、放射性验证、消融完整
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法形式化严谨
  • 价值: ⭐⭐⭐⭐⭐ 对模型坍缩预防和生成内容追溯有直接实用价值