AdvMark: Decoupling Defense Strategies for Robust Image Watermarking¶

会议: CVPR2026
arXiv: 2602.20053
代码: 无
领域: human_understanding
关键词: 图像水印, 对抗鲁棒性, 扩散再生攻击, 解耦训练, 对抗训练, 图像质量

一句话总结¶

提出 AdvMark 两阶段解耦防御框架：Stage 1 Encoder Adversarial Training（EAT）将水印图像移入 non-attackable 区域抵御对抗攻击，Stage 2 直接图像优化抵御失真+再生攻击并保留对抗鲁棒性，在 9 种水印方法 ×10 种攻击上分别提升失真/再生/对抗准确率 29%/33%/46%，且图像质量最优。

研究背景与动机¶

领域现状：深度学习图像水印（DL watermarking）通过 encoder 将信息嵌入图像、decoder 提取信息，已成为版权保护和内容溯源的核心技术。近年来攻击手段不断升级，形成三重威胁。
三重威胁：
对抗攻击（Adversarial Attack）：如 WEvade，通过微小扰动使 decoder 提取错误信息，攻击后图像视觉上无变化
再生攻击（Regeneration Attack）：利用扩散模型对水印图像加噪再去噪，有效"洗掉"水印
失真攻击（Distortion Attack）：如 JPEG 压缩、高斯模糊、裁剪等传统图像处理操作
联合训练（JAT）的两大问题：
问题 1：decoder 对抗训练导致 clean accuracy 下降——为了在对抗样本上也能正确解码，decoder 被迫扩展决策边界，反而在干净图像上精度降低
问题 2：同时训练三种攻击收敛慢效果差——三种攻击的梯度方向冲突，优化 landscape 复杂，联合训练难以同时满足所有防御需求
核心洞察：对抗攻击与失真/再生攻击本质不同。对抗攻击利用模型决策边界的弱点（model-specific），而失真/再生攻击是信号层面的破坏（model-agnostic）。应该解耦防御策略而非联合训练
核心 idea：两阶段解耦——先用 EAT 让 encoder 把图像"推入"non-attackable 区域，再用直接图像优化处理失真和再生攻击

核心问题¶

如何同时防御对抗攻击、再生攻击和失真攻击三重威胁，避免联合训练的梯度冲突和 clean accuracy 下降？

方法详解¶

整体框架¶

AdvMark 采用两阶段解耦设计：Stage 1 EAT 专注对抗鲁棒性，通过微调 encoder（而非扩展 decoder 边界）将水印图像移入安全区域；Stage 2 直接优化 encoded image 抵御失真和再生攻击，用约束保留 Stage 1 的对抗鲁棒性。

关键设计¶

Stage 1: Encoder Adversarial Training (EAT):
做什么：构造 defender-tailored 对抗样本，主要微调 encoder 使水印图像远离对抗攻击可达区域
核心思路：
- 对抗样本构造（Eq.2）：\(\min_{\delta} |0.5 - l(\text{clamp}(D(x_w + \delta), 0, 1), m)|\)，寻找最容易使 decoder 输出接近 0.5（最大不确定性）的扰动 \(\delta\)，这些是 defender-tailored 对抗样本
- Encoder 为主的更新策略：将对抗样本反馈给 encoder，让 encoder 学习将水印图像嵌入到远离决策边界的安全区域。Decoder 仅在 bit accuracy \(< \tau_1\) 时条件更新一次
设计动机：传统对抗训练（AT）同时更新 encoder 和 decoder，decoder 扩展决策边界虽能容纳对抗样本但牺牲 clean accuracy。EAT 反其道而行——不扩大边界，而是让 encoder 把图像"搬到"边界够不到的地方
关键区别：EAT 中 encoder 是主要被训练的对象，decoder 基本冻结
Stage 2: Direct Image Optimization:
做什么：对 Stage 1 输出的水印图像 \(x_{w1}\) 进一步优化得到 \(x_{w2}\)，使其同时抵御失真和再生攻击
核心思路：
- 优化目标：直接在像素空间优化 \(x_{w2}\)（不更新网络参数），使 \(x_{w2}\) 经过失真/再生攻击后 decoder 仍能正确提取水印
- Constrained Image Loss：约束 \(x_{w2}\) 与 \(x_{w1}\) 的偏移量，使优化后的图像不偏离 Stage 1 建立的 non-attackable 区域，从而保留对抗鲁棒性。论文提供了理论保证：在 \(\|x_{w2} - x_{w1}\| \leq \epsilon\) 约束下，Stage 1 的对抗鲁棒性以高概率保持
- Quality-aware Early-stop：不使用固定 \(\epsilon\)-ball 投影（会导致图像质量不均），而是监控图像质量指标（PSNR/SSIM），在质量下降到阈值时提前停止优化
设计动机：失真/再生攻击是 model-agnostic 的信号破坏，用 encoder 训练效果有限；直接优化像素更直接高效，且通过约束保留 Stage 1 的对抗防御成果
两阶段解耦的理论保证:
做什么：证明 Stage 2 优化不会破坏 Stage 1 的对抗鲁棒性
核心思路：若 \(x_{w1}\) 在对抗攻击半径 \(r\) 内是安全的，且 \(\|x_{w2} - x_{w1}\| \leq \epsilon\)，则 \(x_{w2}\) 在半径 \(r - \epsilon\) 内仍是安全的
设计动机：解耦两阶段需要保证后一阶段不破坏前一阶段的成果，理论保证使框架可靠

训练与推断流程¶

Stage 1：在对抗样本上迭代训练 encoder（K 步 PGD 攻击 + encoder 更新），decoder 条件冻结
Stage 2：固定 encoder/decoder，直接优化 \(x_{w2}\) 的像素值（梯度下降），quality-aware early-stop
推断时：正常执行 encoder 嵌入 → Stage 2 优化 → 输出最终水印图像

实验关键数据¶

主实验——9 种水印方法 ×10 种攻击¶

防御策略	失真攻击 Acc (%)	再生攻击 Acc (%)	对抗攻击 Acc (%)	PSNR ↑	SSIM ↑
无防御 (Baseline)	~60-70	~50-60	~20-30	最高	最高
JAT (联合训练)	~65-75	~55-65	~40-50	较低	较低
AT + Distortion	~70-78	~58-68	~45-55	低	低
AdvMark (Ours)	+29%	+33%	+46%	最高	最高

消融实验¶

配置	对抗 Acc	失真 Acc	再生 Acc	图像质量
Stage 1 only (EAT)	高	中	中	高
Stage 2 only (DIO)	低	高	高	中
JAT (联合训练)	中	中	中	低
EAT + 标准 AT (非 EAT)	中	—	—	低
EAT + DIO w/o constraint	低	高	高	中
AdvMark (EAT + constrained DIO)	高	高	高	高

关键发现¶

EAT vs 标准 AT：标准 AT 扩展 decoder 边界导致 clean BA 从 ~99% 降至 ~92%；EAT 保持 clean BA ~98-99% 的同时对抗鲁棒性更强
约束的重要性：去掉 Stage 2 的 image constraint 后，对抗 Acc 显著下降，验证了理论分析
Quality-aware early-stop vs ε-ball 投影：early-stop 在相同 Acc 下 PSNR 平均高 1-2 dB
泛化性：在 9 种不同架构的水印方法上均带来提升，说明 AdvMark 是即插即用的通用框架
对抗攻击提升最显著（+46%）：说明 EAT 的"移入安全区域"策略比"扩展边界"更有效

亮点与洞察¶

"移入安全区域 vs 扩展边界"：这是全文最核心的洞察。传统 AT 让 decoder 包容更多，EAT 让 encoder 把图像送到安全的地方。类比：与其让房子抗震（改 decoder），不如把房子建在没地震的地方（改 encoder）
解耦策略的思想深度：对抗攻击是 model-specific（利用决策边界弱点），失真/再生是 model-agnostic（信号破坏）。两类攻击本质不同，防御策略也应解耦——这是问题理解驱动的设计
理论 + 实践的完整链条：先理论证明约束下鲁棒性保持，再用 quality-aware early-stop 实践落地，理论指导工程
通用框架：即插即用于 9 种已有水印方法，说明方法的通用性和实用价值

局限性 / 可改进方向¶

Stage 2 的直接图像优化需要额外推断时间（每张图像优化数十步），实时场景可能受限
Quality-aware early-stop 的阈值需要针对不同应用场景设定，不完全免调参
理论保证基于 \(\|x_{w2} - x_{w1}\| \leq \epsilon\) 的假设，实际优化可能超出此范围
仅在图像水印上验证，视频水印、音频水印等其他模态的适用性待探索
对抗攻击类型以 WEvade 为主，更多样化的自适应攻击测试可增强可信度

评分¶

新颖性: ⭐⭐⭐⭐ EAT "移入安全区域"的思路新颖，两阶段解耦设计有深度
实验充分度: ⭐⭐⭐⭐⭐ 9 种方法 ×10 种攻击的大规模对比极为充分，消融细致
写作质量: ⭐⭐⭐⭐ 问题分析透彻，"扩展边界 vs 移入安全区域"的对比叙事清晰
价值: ⭐⭐⭐⭐ 即插即用的通用框架，对水印防御实践有直接指导意义