PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints¶

会议: ICLR 2026
arXiv: 2509.21057
代码: 即将发布
领域: AI安全 / 水印
关键词: LLM水印, 语义级水印, 无失真, 多通道约束, 鲁棒性理论

一句话总结¶

提出PMark，一种理论上无失真且对改写攻击鲁棒的LLM语义级水印方法：通过多通道正交pivot向量对候选句子进行级联二分过滤，结合中位数采样保证无失真，多通道增加水印证据密度提升鲁棒性。在改写攻击下TP@FP1%达95%+，比此前SWM方法提升14.8%。

研究背景与动机¶

领域现状：LLM水印分为token级（如Green-Red水印）和语义级(SWM)。SWM通过在句子语义空间嵌入水印信号来增强对改写攻击的鲁棒性。
现有痛点：
现有SWM方法(SemStamp/k-SemStamp)使用拒绝采样，引入分布失真
单通道水印证据密度稀疏，改写攻击轻易破坏检测
缺乏严格的理论框架分析水印性质（无失真条件、鲁棒性界）
核心矛盾：无失真性（生成质量不变）与鲁棒性（抵抗改写攻击）之间的trade-off
本文要解决什么？ 同时实现理论上的无失真保证和实际上对改写攻击的强鲁棒性
切入角度：多通道正交pivot向量 = 每句话嵌入多个独立水印bit → 证据密度成倍增加
核心idea一句话：无失真中位数采样 + 多正交通道级联过滤 = 高密度水印证据 → 鲁棒

方法详解¶

整体框架¶

生成时：对每个待生成的句子，采样N个候选→用b个正交pivot向量依次将候选集二分→最终均匀采样。检测时：对每个句子重采样N个候选重建中位数→用soft z-test统计检验。离线版本简化为零中位数先验，无需重采样。

关键设计¶

代理函数(Proxy Function)理论框架:
做什么：统一语义级水印的理论分析
核心定理：水印分布无失真当且仅当 \(q(u) = 1/M\)（即代理值分布均匀），这在实际中很难满足
设计动机：提供了分析现有方法失真来源的理论工具
单通道无失真采样:
做什么：保证单个通道的水印采样不引入分布偏移
核心思路：给定pivot \(v\)，计算N个候选的余弦相似度 \(\langle v, \mathcal{T}(s) \rangle\)，找中位数分为上下两半。用密钥bit选择某半，从该半均匀采样。因每个候选被选概率都是 \(1/N\)，所以 \(P_M^w(s|\pi) = P_M(s|\pi)\)
理论保证(Theorem 3)：严格无失真
多通道级联过滤(Online PMark):
做什么：用b个正交pivot向量将证据密度提升b倍
核心思路：b个正交pivot通过QR分解生成。对N个候选依次在每个通道做中位数二分，每次保留一半(由密钥bit决定)。\(V^{(0)} \to V^{(1)} \to \cdots \to V^{(b)}\)，最终从 \(V^{(b)}\)（\(N/2^b\)个候选）均匀采样
鲁棒性理论(Theorem 7)：若攻击以概率 \(\epsilon\) 破坏每通道证据，SNR \(\geq \frac{(1-2\epsilon)\sqrt{bT}}{2\sqrt{\epsilon(1-\epsilon)}}\)，随通道数b和句子数T增长
设计动机：单通道每句只有1 bit证据，多通道每句有b bits → 证据密度成倍增加
离线PMark（简化版）:
做什么：无需检测时重采样的高效版本
核心思路：高维空间中随机向量几乎正交，代理函数值集中在 \([-\epsilon, \epsilon]\)，中位数接近零。直接用零作为先验中位数，无需重采样估计
失真界(Theorem 8)：\(\delta_{TV} \leq \epsilon\)，在实际中 \(\epsilon \leq 0.08\)

损失函数 / 训练策略¶

无需训练——纯采样算法
生成时需要N次采样/句子（N=16-64），检测时Online版需重采样估计中位数

实验关键数据¶

主实验：改写攻击下的TP@FP1%¶

方法	无攻击	Doc-P(GPT改写)	提升
SemStamp(C4/Mistral)	~99%	73.5%	—
k-SemStamp	100%	~80%	—
PMark Online	100%	97.8%	+24.3%
PMark Offline	99.7%	92.6%	+19.1%

消融：通道数b和采样数N¶

N\b	b=1	b=2	b=3	b=4
N=8(Online)	81.0	97.0	98.0	—
N=16	84.0	100.0	100.0	100.0
N=64	99.0	100.0	100.0	100.0

关键发现¶

多通道是核心：从b=1到b=2，检测率从81%跳升到97%
文本质量不降反升：PMark的PPL(4.37)低于k-SemStamp(~5.0)，因为无失真采样不引入分布偏移
对GPT级改写鲁棒：即使用GPT做重度改写(Doc-P)，TP@FP1%仍达95%+

亮点与洞察¶

理论与实践的优雅统一：严格证明无失真条件+SNR随 \(\sqrt{bT}\) 增长的鲁棒性界，这在水印领域罕见。理论驱动方法设计
多通道证据密度的核心直觉：类似纠错编码的冗余思想——每句话嵌入多个独立bit，即使部分被攻击破坏，整体信号仍可恢复
离线版本的简化极其聪明：利用高维空间的"准正交性"将中位数近似为零，消除了检测时重采样的开销

局限性 / 可改进方向¶

采样开销：每句需N次采样(N=16-64)，对实时应用有延迟影响
依赖语义编码器：使用固定编码器（如Roberta），编码器质量影响水印效果
仅在句子级嵌入：无法对短文本（< 10句）可靠检测
改进思路：可结合token级水印做混合方案——短文本用token级，长文本用PMark

评分¶

新颖性: ⭐⭐⭐⭐⭐ 理论框架+多通道无失真设计都是重要贡献
实验充分度: ⭐⭐⭐⭐ 多模型多数据集多攻击类型，但缺少更多LLM规模实验
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，方法描述清晰
价值: ⭐⭐⭐⭐⭐ 解决了语义水印的两个核心难题（失真+鲁棒），理论和实用价值双高