De-mark: Watermark Removal in Large Language Models¶

会议: ICML2025
arXiv: 2410.13808
代码: GitHub - De-mark
领域: ai_safety
关键词: 水印去除, LLM水印, n-gram水印, 红绿列表, 水印窃取

一句话总结¶

提出De-mark框架，通过随机选择探测(random selection probing)策略估计n-gram水印强度并重建红绿列表，无需知道哈希函数即可去除水印，并提供去除后LM分布与原始分布之间的理论差距保证。

研究背景与动机¶

核心矛盾¶

核心矛盾：n-gram水印(Kirchenbauer et al.)通过偏向绿色token来嵌入可检测信号，但其鲁棒性被显著高估。如果对手能逆向工程水印规则，就能有效去除水印。

解决思路¶

本文目标：Jovanovic et al.的先驱工作需要知道底层哈希函数，且依赖释义工具去除水印（无法保持原始LM分布）。

De-mark的改进¶

完全不需要已知哈希函数，提供分布级别的理论保证，还可进行水印利用（让其他模型生成水印内容）。

方法详解¶

随机选择探测(Random Selection Probing)¶

向水印LM发送精心设计的查询序列，通过统计token频率重建每个n-gram上下文的红绿列表分割和水印强度delta。

水印强度估计¶

提出无偏估计器，可准确评估水印偏移量delta，理论保证估计的一致性。

水印去除¶

基于估计的红绿列表和delta，在推理时修正token概率分布，将绿色token的logit偏移还原。

理论保证¶

证明去除后的LM分布与原始无水印分布之间的KL散度有界。

水印利用¶

反过来应用估计的水印规则到另一个LM，使其生成带水印的内容——展示了水印方案的脆弱性。

实验关键数据¶

水印去除效果（Llama3/Mistral）¶

主实验¶

模型	去除前z-score	去除后z-score	文本质量保持
Llama3-8B	4.2	0.3	高
Mistral-7B	3.8	0.4	高

与已有方法对比¶

消融实验¶

方法	需要哈希函数	保持分布	效果
Jovanovic et al.	是	否	中等
De-mark	否	是(理论保证)	高

ChatGPT案例研究¶

在商业级LLM上也成功去除水印，验证了方法的实际威胁。

关键发现¶

随机选择探测比频率分析更高效
理论分布保证使去除后文本自然
水印利用功能揭示严重安全威胁
方法对不同n-gram长度(1-4)都有效

亮点与洞察¶

从攻击者角度揭示水印方案的根本脆弱性。
不依赖任何先验知识（哈希函数/水印参数）。
理论保证（KL散度有界）使方法可信。
水印利用能力使问题更严峻——攻击者可伪造水印。
ChatGPT实验说明商业系统也不安全。

局限与展望¶

需要较多查询次数来估计红绿列表。
对language-aware或语义水印的适用性未验证。
水印利用的伦理风险需要社区讨论。
防御对策（如何使水印更鲁棒）未深入探讨。
多水印叠加场景未考虑。

评分¶

新颖性: 4.5/5 — 不依赖先验知识的水印去除+理论保证
实验充分度: 4.5/5 — 多模型+商业LLM验证
写作质量: 4.5/5
价值: 5.0/5 — 对水印安全有重要警示

补充技术细节¶

随机选择探测的工作原理¶

向LM发送精心设计的前缀序列，观察哪些token被系统性偏好。通过多次探测积累统计信号，重建每个n-gram上下文的红绿分割。

KL散度的理论保证¶

去除水印后的分布与原始LM分布之间的KL散度随delta估计误差和查询次数的增加而收缩。

对防御的启示¶

建议水印设计应考虑对随机探测的鲁棒性，例如使用随机化哈希或多级水印。