跳转至

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

会议: ICLR 2026
arXiv: 2509.21057
代码: 即将发布
领域: AI安全 / 水印
关键词: LLM水印, 语义级水印, 无失真, 多通道约束, 鲁棒性理论

一句话总结

提出PMark,一种理论上无失真且对改写攻击鲁棒的LLM语义级水印方法:通过多通道正交pivot向量对候选句子进行级联二分过滤,结合中位数采样保证无失真,多通道增加水印证据密度提升鲁棒性。在改写攻击下TP@FP1%达95%+,比此前SWM方法提升14.8%。

研究背景与动机

  1. 领域现状:LLM水印分为token级(如Green-Red水印)和语义级(SWM)。SWM通过在句子语义空间嵌入水印信号来增强对改写攻击的鲁棒性。
  2. 现有痛点
  3. 现有SWM方法(SemStamp/k-SemStamp)使用拒绝采样,引入分布失真
  4. 单通道水印证据密度稀疏,改写攻击轻易破坏检测
  5. 缺乏严格的理论框架分析水印性质(无失真条件、鲁棒性界)
  6. 核心矛盾:无失真性(生成质量不变)与鲁棒性(抵抗改写攻击)之间的trade-off
  7. 本文要解决什么? 同时实现理论上的无失真保证和实际上对改写攻击的强鲁棒性
  8. 切入角度:多通道正交pivot向量 = 每句话嵌入多个独立水印bit → 证据密度成倍增加
  9. 核心idea一句话:无失真中位数采样 + 多正交通道级联过滤 = 高密度水印证据 → 鲁棒

方法详解

整体框架

生成时:对每个待生成的句子,采样N个候选→用b个正交pivot向量依次将候选集二分→最终均匀采样。检测时:对每个句子重采样N个候选重建中位数→用soft z-test统计检验。离线版本简化为零中位数先验,无需重采样。

关键设计

  1. 代理函数(Proxy Function)理论框架:
  2. 做什么:统一语义级水印的理论分析
  3. 核心定理:水印分布无失真当且仅当 \(q(u) = 1/M\)(即代理值分布均匀),这在实际中很难满足
  4. 设计动机:提供了分析现有方法失真来源的理论工具

  5. 单通道无失真采样:

  6. 做什么:保证单个通道的水印采样不引入分布偏移
  7. 核心思路:给定pivot \(v\),计算N个候选的余弦相似度 \(\langle v, \mathcal{T}(s) \rangle\),找中位数分为上下两半。用密钥bit选择某半,从该半均匀采样。因每个候选被选概率都是 \(1/N\),所以 \(P_M^w(s|\pi) = P_M(s|\pi)\)
  8. 理论保证(Theorem 3):严格无失真

  9. 多通道级联过滤(Online PMark):

  10. 做什么:用b个正交pivot向量将证据密度提升b倍
  11. 核心思路:b个正交pivot通过QR分解生成。对N个候选依次在每个通道做中位数二分,每次保留一半(由密钥bit决定)。\(V^{(0)} \to V^{(1)} \to \cdots \to V^{(b)}\),最终从 \(V^{(b)}\)\(N/2^b\)个候选)均匀采样
  12. 鲁棒性理论(Theorem 7):若攻击以概率 \(\epsilon\) 破坏每通道证据,SNR \(\geq \frac{(1-2\epsilon)\sqrt{bT}}{2\sqrt{\epsilon(1-\epsilon)}}\),随通道数b和句子数T增长
  13. 设计动机:单通道每句只有1 bit证据,多通道每句有b bits → 证据密度成倍增加

  14. 离线PMark(简化版):

  15. 做什么:无需检测时重采样的高效版本
  16. 核心思路:高维空间中随机向量几乎正交,代理函数值集中在 \([-\epsilon, \epsilon]\),中位数接近零。直接用零作为先验中位数,无需重采样估计
  17. 失真界(Theorem 8):\(\delta_{TV} \leq \epsilon\),在实际中 \(\epsilon \leq 0.08\)

损失函数 / 训练策略

  • 无需训练——纯采样算法
  • 生成时需要N次采样/句子(N=16-64),检测时Online版需重采样估计中位数

实验关键数据

主实验:改写攻击下的TP@FP1%

方法 无攻击 Doc-P(GPT改写) 提升
SemStamp(C4/Mistral) ~99% 73.5%
k-SemStamp 100% ~80%
PMark Online 100% 97.8% +24.3%
PMark Offline 99.7% 92.6% +19.1%

消融:通道数b和采样数N

N\b b=1 b=2 b=3 b=4
N=8(Online) 81.0 97.0 98.0
N=16 84.0 100.0 100.0 100.0
N=64 99.0 100.0 100.0 100.0

关键发现

  • 多通道是核心:从b=1到b=2,检测率从81%跳升到97%
  • 文本质量不降反升:PMark的PPL(4.37)低于k-SemStamp(~5.0),因为无失真采样不引入分布偏移
  • 对GPT级改写鲁棒:即使用GPT做重度改写(Doc-P),TP@FP1%仍达95%+

亮点与洞察

  • 理论与实践的优雅统一:严格证明无失真条件+SNR随 \(\sqrt{bT}\) 增长的鲁棒性界,这在水印领域罕见。理论驱动方法设计
  • 多通道证据密度的核心直觉:类似纠错编码的冗余思想——每句话嵌入多个独立bit,即使部分被攻击破坏,整体信号仍可恢复
  • 离线版本的简化极其聪明:利用高维空间的"准正交性"将中位数近似为零,消除了检测时重采样的开销

局限性 / 可改进方向

  • 采样开销:每句需N次采样(N=16-64),对实时应用有延迟影响
  • 依赖语义编码器:使用固定编码器(如Roberta),编码器质量影响水印效果
  • 仅在句子级嵌入:无法对短文本(< 10句)可靠检测
  • 改进思路:可结合token级水印做混合方案——短文本用token级,长文本用PMark

相关工作与启发

  • vs SemStamp/k-SemStamp:这些用拒绝采样引入失真,PMark用中位数采样实现严格无失真;鲁棒性提升14.8%
  • vs Green-Red token级水印:token级对改写脆弱(每个token替换都是信息丢失),PMark在语义级嵌入,对同义改写鲁棒
  • vs UPV(token级最佳):PMark在改写鲁棒性上提升44.6%

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 理论框架+多通道无失真设计都是重要贡献
  • 实验充分度: ⭐⭐⭐⭐ 多模型多数据集多攻击类型,但缺少更多LLM规模实验
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,方法描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 解决了语义水印的两个核心难题(失真+鲁棒),理论和实用价值双高