BitMark: Watermarking Bitwise Autoregressive Image Generative Models¶

会议: NeurIPS 2025
arXiv: 2506.21209
代码: https://github.com/sprintml/BitMark
领域: 图像生成 / 水印 / AI安全
关键词: 比特级水印, 自回归图像生成, 模型坍缩预防, 放射性水印, Infinity

一句话总结¶

提出 BitMark——首个针对比特级自回归图像生成模型（Infinity、Instella）的水印方案，在生成过程中通过对 logit 加偏置将 bit 序列引向"绿色列表"，实现可靠检测（z-test）、高图像保真度（FID 几乎不变）、对多种攻击的鲁棒性和放射性（训练在水印图上的下游模型也带有水印），为防止模型坍缩提供了关键工具。

研究背景与动机¶

领域现状：Infinity 和 Instella 等 SOTA 文生图模型通过比特级自回归（非传统 token 级）预测生成高质量图像，码本大小达 \(2^{64}\)。随着生成图像充斥互联网，模型训练时越来越多地训练在自己生成的数据上，导致模型坍缩（model collapse）。
现有痛点：
扩散模型水印方案（Tree-Ring、PRC、Stable Signature）不适用于自回归架构
LLM 水印（KGW）在 token 级操作，但图像AR模型的 token 经编解码后不一致（token 重合率仅 ~2.4%）
现有扩散模型水印不具有放射性——在水印图上训练的新模型不会继承水印
核心矛盾：图像自回归模型的 token 经编码-解码循环后严重偏移（因连续图像空间的量化损失），导致 token 级水印信号大量丢失。但 bit 级的重合率高得多（~77.4%），提供了水印嵌入的可行切入点。
本文要解决什么？ 设计一个在比特级操作的水印方案，满足：(a) 不降低图像质量，(b) 可靠检测，(c) 抵抗多种去除攻击，(d) 具有放射性。
切入角度：观察到 Infinity 模型中 bit 级重合率（77.4%）远高于 token 级（2.4%），因此在 bit 级嵌入水印信号比 token 级更鲁棒。
核心 idea 一句话：将 LLM 的 green/red list 水印思想从 token 级下沉到 bit 级，利用比特级自回归图像模型的生成过程嵌入可检测信号。

方法详解¶

整体框架¶

嵌入：将所有长度为 \(n\) 的 bit 序列分为绿色列表 \(G\) 和红色列表 \(R\) → 在每一步 bit 预测时，如果当前 bit 能完成 \(G\) 中的序列，给对应 logit 加偏置 \(\delta\) → 生成图像中绿色序列占比显著超过 50%。检测：对怀疑图像重新编码为 bit → 统计绿色序列占比 → z-test 判断是否超过自然图像期望。

关键设计¶

比特级 Green/Red List 水印嵌入:
做什么：在不修改模型权重的前提下将水印信号嵌入生成过程
核心思路：给定前缀 \(pre = (b_{j-(n-1)}, ..., b_{j-1})\) 和当前 bit \(b_j\)，如果 \(pre + b_j \in G\)，则 \(p_j = \text{softmax}(l_j^{(b_j)} + \delta)\)，否则不加偏置。偏置 \(\delta\) 设得很小（如 1.0-2.0），主要影响高熵 bit（本身就接近 50/50 的 bit），因此对图像质量影响极小
设计动机：高熵 bit 被翻转后对图像影响最小（因为模型本身就不确定），而它们恰好是最容易被偏置影响的——完美匹配
z-test 统计检测:
做什么：可靠地判断图像是否含水印
核心思路：统计编码图像中绿色序列数 \(C\)，计算 \(z = (C - \gamma T) / \sqrt{T\gamma(1-\gamma)}\)，超过阈值则判定为水印图像。自然图像中 \(C \approx \gamma T\)（所有序列等概率），水印图像中 \(C\) 显著高于此值
设计动机：z-test 提供精确的假阳性率控制，可调节检测阈值在灵敏度和误报率间权衡
放射性（Radioactivity）:
做什么：确保在水印图上训练的下游模型也产生带水印的输出
核心思路：水印改变了图像的统计分布（bit 序列中绿色占比偏高），下游模型在这种偏倚数据上训练后也会学到这种统计偏好，从而输出也带有水印信号
设计动机：防止第三方用水印图微调模型后生成"洗白"的图像——水印会传染到下游

损失函数 / 训练策略¶

无需训练——纯推理时嵌入
关键超参数：bit 序列长度 \(n\)、偏置强度 \(\delta\)、绿色列表占比 \(\gamma\)
密钥 \(\mathcal{K}\) 控制 green/red 列表，保证水印的私密性

实验关键数据¶

主实验¶

在 Infinity 和 Instella 上的水印性能：

指标	无水印	BitMark (\(\delta\)=1.5)	说明
FID	基线	接近基线（<1差异）	图像质量几乎不受影响
绿色序列比例	~50%	~65-70%	水印信号显著
检测 AUC	-	>0.99	几乎完美检测
推理速度	基线	基线	零额外开销（仅加偏置）

消融：鲁棒性对比¶

攻击类型	检测 AUC	说明
无攻击	>0.99	完美检测
JPEG (quality=50)	>0.95	高度鲁棒
高斯噪声	>0.95	高度鲁棒
高斯模糊	>0.93	鲁棒
颜色抖动	>0.95	高度鲁棒
随机裁剪	>0.90	较鲁棒
Watermark-in-the-Sand	>0.88	对专用去除攻击也鲁棒
CtrlRegen	>0.85	对再生攻击也有效
Bit-Flipper（定制攻击）	>0.80	即使针对性攻击也难以完全去除

关键发现¶

bit 级 vs token 级：token 重合率仅 2.4%，bit 重合率 77.4%——bit 级操作是唯一可行的水印策略
高熵 bit 是关键：偏置主要影响高熵 bit（对图像值分布影响最小），确保图像质量不受影响
放射性实验验证：在水印 Infinity 图上微调扩散模型后，扩散模型的输出也被检测出水印
私有水印防护：攻击者无法在不知道密钥的情况下推断 green/red 列表
对比 LLM 水印：直接将 KGW 应用于 token 级的方案检测率不到 60%，BitMark 的 bit 级方案 >99%

亮点与洞察¶

bit 级操作是核心创新：这一观察（bit 级编解码一致性远高于 token 级）既简单又深刻，直接决定了设计方向
放射性水印对防止模型坍缩有战略意义：不仅保护自己的模型，还让整个生态系统中的衍生模型可追溯
零推理开销：只在 logit 上加一个常数，不需要额外的神经网络推理或后处理
该技术可推广到未来任何使用比特级自回归生成的模型

局限性 / 可改进方向¶

仅在 Infinity 和 Instella 上验证，其他自回归架构（如 VAR 的 token 级预测）需要不同方案
检测需要访问模型的编码器（将图像重新编码为 bit），限制了第三方独立检测
绿色列表比例 \(\gamma\) 和偏置 \(\delta\) 的最优选择可能依赖于具体模型和分辨率
未在超高分辨率（>2K）图像上充分测试
理论最优 bit 序列长度 \(n\) 的选择缺乏严格分析

评分¶

新颖性: ⭐⭐⭐⭐ 首个比特级AR图像模型水印，bit级观察是关键洞察
实验充分度: ⭐⭐⭐⭐⭐ 两个模型、多种攻击（含专用去除）、放射性验证、消融完整
写作质量: ⭐⭐⭐⭐ 动机清晰，方法形式化严谨
价值: ⭐⭐⭐⭐⭐ 对模型坍缩预防和生成内容追溯有直接实用价值