跳转至

MorphMark: Flexible Adaptive Watermarking for Large Language Models

会议: ACL 2025
arXiv: 2505.11541
代码: 无
机构: 清华大学 & 香港中文大学(深圳) 领域: AI安全
关键词: LLM watermarking, red-green list, adaptive watermark strength, multi-objective optimization, text quality, model-agnostic

一句话总结

MorphMark 通过多目标权衡分析框架揭示了绿表概率 P_G 在水印效果与文本质量之间的关键作用,并据此提出自适应调整水印强度 r 的方法——当 P_G 高时增强水印、P_G 低时减弱水印,实现了在不依赖额外模型训练的前提下同时提升水印可检测性和文本质量。

研究背景与动机

现状

  • LLM 生成文本的溯源和版权保护是日益重要的需求
  • 基于红绿表(red-green list)的水印方法是主流方案:将词表分为绿表和红表,提高绿表 token 的采样概率
  • KGW (Kirchenbauer et al., 2023) 是开创性方法,使用固定超参数 δ 控制水印强度

痛点

  • 根本困境:水印效果(可检测性、鲁棒性)与文本质量之间存在固有矛盾
  • 更强水印 → 更好检测,但文本质量下降;更弱水印 → 文本质量好,但难以检测且易被攻击
  • Unbiased watermarking 保持期望分布不变但鲁棒性差
  • Low-entropy watermarking 避免低熵 token 水印但需要原始模型进行检测
  • 训练辅助模型的方法缺乏灵活性(model-specific,增加部署复杂度和推理延迟)

核心洞察

  • 现有方法将水印强度视为固定超参数,但不同 token 位置的最优水印强度应该不同
  • 绿表累积概率 P_G 是决定水印效果-质量权衡的关键因子
  • 当 P_G 高时,增加水印强度的综合收益大;当 P_G 低时,增加水印强度的收益递减甚至为负

方法详解

整体框架

将水印效果和文本质量统一建模为多目标权衡分析函数 F(r) = T(r) + ω·W(r),其中 T(r) 用 Bhattacharyya 系数衡量原始分布与水印分布的相似度,W(r) 衡量绿表与红表概率差值的增量。通过理论推导找到最优水印强度 r* 与 P_G 的正相关关系,进而设计自适应水印算法。

关键设计 1:多目标权衡框架

  • 文本质量 T(r) = BC(P, P̂) = P_G · sqrt(1 + r(1-P_G)/P_G) + (1-P_G) · sqrt(1-r)
  • 水印效果 W(r) = 2r(1-P_G)
  • 综合函数 F(r) = T(r) + ω·W(r),ω > 0 为权重
  • Theorem 1:对任意 ω > 0,存在最优 r ∈ (0,1)使 F 最大化,且 ∂r/∂P_G > 0
  • 结论对任意权重 ω 都成立,具有普适性

关键设计 2:自适应水印强度函数

  • r = φ(P_G),分段线性函数:
  • P_G ≤ p_0 时:r = ε(几乎不加水印,保护低熵位置的文本质量)
  • P_G > p_0 时:r = min(k_linear · P_G, 1-ε)(线性增长)
  • p_0 为水印阈值,控制何时开始加水印
  • 也支持指数增长 z(x) = e^(k_exp·x) - 1 和对数增长 z(x) = ln(k_log·x + 1) 的变体

关键设计 3:Model-agnostic 和 Model-free

  • 不需要训练额外的辅助模型
  • 不需要访问原始模型进行检测(使用 z-score 统计检测)
  • 支持端到端推理,不增加部署复杂度
  • 可直接应用于任何基于 red-green list 的水印框架

检测方法

  • 使用标准 z-score 检测:z = (|S|_G - γ|T|) / sqrt(|T|γ(1-γ))
  • 超过阈值则判定为含水印文本
  • 与 KGW 完全兼容的检测流程

实验关键数据

主实验:OPT-1.3B 上的水印性能对比

方法 TPR@1%↑ TPR@1%(Word-S/30%)↑ Best F1↑ PPL↓
KGW 0.9900 0.8050 0.9268 11.50
UW (Unbiased) 1.0000 0.7425 0.9221 11.59
DiPmark 0.9975 0.7250 0.9138 11.50
SWEET 0.9975 0.8225 0.9501 11.51
EWD 1.0000 0.8450 0.9549 11.48
MorphMark_exp 1.0000 0.9600 0.9778 11.36
MorphMark_linear 1.0000 0.9275 0.9727 11.24

OPT-2.7B 结果

方法 TPR@1%↑ TPR@1%(Word-S/30%)↑ Best F1↑ PPL↓
KGW 0.9950 0.8275 0.9098 10.93
MorphMark_exp 1.0000 0.9625 0.9686 10.51

效率对比

方法 生成时间(s) 检测时间(ms) 额外内存(B)
KGW 11.50 33.81 0
SWEET 11.51 44.27 1.3
MorphMark_exp 11.36 34.17 0

关键发现

  1. MorphMark 在鲁棒性(Word Substitution 30% 攻击后)上大幅领先:TPR@1% 从 0.8050(KGW) 提升至 0.9600
  2. 文本质量(PPL)反而更低(更好),打破了效果-质量此消彼长的惯性认知
  3. 不需要额外内存和计算开销,生成时间甚至略快于基线方法
  4. 指数增长函数(exp)总体表现最优,线性和对数变体也有竞争力

亮点与洞察

  • 理论驱动设计:通过严谨的多目标优化理论推导得到自适应策略,而非启发式调参
  • 打破效果-质量矛盾:首次从理论上证明存在最优的动态水印强度,可以同时提升两个目标
  • P_G 的关键角色:首次揭示绿表累积概率对水印权衡的核心影响,为后续工作提供了理论基础
  • 完全 model-free 的设计使其具有极高的实际部署价值

局限性 / 可改进方向

  • 自适应函数 φ(P_G) 的具体形式(线性/指数/对数)和参数 p_0、k 需要针对不同模型调优
  • 理论分析基于单步 token 生成,未考虑长序列累积效应
  • 实验模型规模较小(OPT-1.3B/2.7B),未在更大模型(如 70B+)上验证
  • 未深入分析不同领域文本(代码、数学、创意写作等)的表现差异

相关工作与启发

  • KGW (Kirchenbauer et al., 2023) 是本文的理论基础和统一基线
  • SWEET 和 EWD 是最接近的竞争方法,也采用 entropy-aware 策略但需额外模型
  • 启发:自适应思路可推广到其他需要质量-效果权衡的场景(如差分隐私中的噪声注入)

评分

  • 新颖性: ⭐⭐⭐⭐ — 理论驱动的自适应水印是有意义的贡献
  • 技术深度: ⭐⭐⭐⭐⭐ — 完整的多目标优化理论推导和证明
  • 实用性: ⭐⭐⭐⭐⭐ — model-free、零额外开销、即插即用
  • 实验充分度: ⭐⭐⭐ — 模型规模偏小,可扩展到更大模型