Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking¶

会议: CVPR 2026
arXiv: 2603.12949
代码: 无
领域: 图像水印 / 数字取证 / 生成模型安全
关键词: robust watermarking, diffusion editing, watermark degradation, mutual information, content provenance

一句话总结¶

本文从理论和实验两方面系统分析了扩散编辑（instruction/drag/composition）如何非对抗性地破坏鲁棒隐形水印，推导出 SNR 衰减和互信息下界，揭示常规后处理鲁棒性不能推广到生成式变换。

背景与动机¶

鲁棒隐形水印被广泛用于版权保护和内容溯源，传统系统针对 JPEG/缩放/裁剪/模糊等噪声层训练，并展现出强鲁棒性。然而扩散编辑（InstructPix2Pix、DragDiffusion、TF-ICON 等）引入了根本不同的变换类别——先注入高斯噪声，再通过强大的生成先验重建图像。水印作为低幅度结构扰动，会被去噪器当作"非自然残差"移除。现有研究缺乏对这一现象的统一理论解释和系统性基准评估。

核心问题¶

在什么条件下，非对抗性的扩散编辑会无意中破坏鲁棒水印恢复？其背后的理论机制是什么？

方法详解¶

整体框架¶

本文是理论+实验综合分析，不提出新的水印方案，而是：(1) 将扩散编辑建模为马尔可夫核；(2) 推导水印降质的理论界；(3) 设计标准化评估协议 DEW-ST；(4) 跨多种编辑器和水印系统进行评估。

关键设计¶

扩散编辑的马尔可夫核建模：将编辑器抽象为 K_T(x̃|x_w, y)，包含 (i) 受控加噪、(ii) 条件去噪、(iii) 附加架构操作。不同编辑器（instruction/drag/composition）对应不同的条件和约束参数化。
加性水印信号模型：x_w = x + γs(m,k,x)，水印残差是低幅扰动，强度 γ 受不可察觉性约束。在前向加噪过程中，水印分量被 √ᾱ_t 衰减。
SNR 衰减分析：
离散情况（Lemma 6.1）：SNR_t = γ²ᾱ_t / (1 - ᾱ_t)，随 t 增大指数衰减
连续 SDE 情况（Lemma 6.2）：水印残差以 exp(-½∫β(u)du) 指数衰减
互信息下界（Theorem 6.1）：I(M; X_t) ≤ (d/2)log(1 + γ²ᾱ_t / (1 - ᾱ_t))，进一步通过数据处理不等式推广到编辑后输出。当加噪强度 t 增大时互信息趋于零，任何解码器都必然失败。
去噪收缩效应（Proposition 6.1）：在局部收缩假设下，去噪流以 ρⁿ（n 步复合）指数抑制偏离自然流形的水印残差，解释了即使温和的局部编辑也能破坏全局分布的水印。
频域分析：定义频谱保留率 ρ_Ω，实证表明高频水印能量被扩散编辑最强烈地抑制（ρ_high 低至 0.09-0.19），符合去噪器充当自适应低通滤波器的解释。

损失函数 / 训练策略¶

提出扩散增强水印训练的概念模板（Algorithm 2）：在训练噪声层中混入多种扩散编辑器 {T_j}
目标：min_{E,D} E[ℓ_rec(D(T_j(E(x,m))), m)] + λE[ℓ_qual(E(x,m), x)]
实验表明此策略在温和编辑下提升鲁棒性（BA 从 74% → 85.7%），但强编辑下仍趋于失败

实验关键数据¶

变换类型	强度	StegaStamp BA	TrustMark BA	VINE BA
无（干净水印）	-	99.4%	99.7%	99.8%
JPEG q50	-	96.1%	98.2%	98.9%
InstructPix2Pix	mild	86.7%	89.2%	93.5%
InstructPix2Pix	strong	53.2%	55.0%	60.7%
DragDiffusion	moderate	63.4%	67.9%	78.6%
TF-ICON composition	-	58.9%	63.2%	74.8%

随机猜测基线约 50%，强编辑下 StegaStamp/TrustMark 几乎接近随机
VINE 因扩散感知训练表现较好，但强编辑下仍降至 ~60%
ECC（纠错码）在强编辑下消息恢复率 <3%，因错误非 i.i.d. 而是系统性的
高保真编辑（PSNR/SSIM 高）并不意味着水印保留——LPIPS 低但水印已被擦除

消融实验要点¶

多 seed 投票（3 seeds mayoría）仅带来 ~0.5% BA 提升，说明退化是系统性而非随机的
嵌入分辨率（256→512 vs 直接 512）对扩散编辑下的鲁棒性影响甚微
扩散原生水印（Tree-Ring、Stable Signature）在同模型编辑下 AUC 0.89-0.92，跨模型编辑下暴跌至 0.58-0.65

亮点¶

理论分析严谨完整：从 SNR 衰减→互信息下界→Fano 不等式→去噪收缩，形成闭环解释
首次系统性地将多类扩散编辑（instruction/drag/composition）作为水印压力测试
标准化评估协议 DEW-ST 有推广价值
频域分析揭示扩散去噪的频率选择性抑制机制
设计指南务实：建议水印应追求语义不变性而非像素不变性

局限性 / 可改进方向¶

论文明确声明实验数据为 illustrative/hypothetical，并非真实实验结果，这是重大局限
理论依赖加性水印和理想化流形收缩假设，与实际非线性编码器有差距
未提供具体可运行的水印防御方案
编辑器和水印系统都在快速演化，固定基准可能很快过时
未涉及视频水印场景

与相关工作的对比¶

vs Zhao et al. (NeurIPS 2024)：后者关注主动再生攻击的可证明去除性，本文聚焦非对抗编辑的无意破坏
vs VINE (ICLR 2025)：VINE 提出 W-Bench 和扩散感知水印，本文在其基础上提供更深入的理论分析
vs Ni et al. (2025)：后者研究显式优化去除，本文强调 benign 编辑场景
vs Tree-Ring/Stable Signature：这些扩散原生方法在跨模型编辑下同样脆弱

启发与关联¶

水印信号 vs 扩散去噪的对偶关系类似于信息瓶颈理论，水印信号在前向过程中被信息压缩
提示未来水印设计应嵌入到生成流程中或对齐到语义特征空间
C2PA 等元数据方案可以与水印互补，构成混合溯源体系
对其他隐写术和对抗扰动的鲁棒性研究也有启示价值

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性理论+实验分析扩散编辑对水印的影响
实验充分度: ⭐⭐⭐ 理论分析出色但实验数据是 hypothetical 而非真实运行
写作质量: ⭐⭐⭐⭐ 论文结构完整，理论推导清晰，相关工作覆盖全面
价值: ⭐⭐⭐⭐ 对水印社区和内容溯源生态系统有重要警示和指导意义