Creating Blank Canvas Against AI-Enabled Image Forgery¶
会议: AAAI 2026 arXiv: 2511.22237 代码: GitHub 领域: 图像生成 关键词: 图像篡改检测, 对抗扰动, SAM, 频率感知优化, 主动保护
一句话总结¶
提出"空白画布"机制,通过对抗扰动使 SAM 对受保护图像"视而不见",当图像被篡改后篡改区域会被 SAM 自动识别,实现无需篡改训练数据的主动式篡改定位。
研究背景与动机¶
AIGC 图像编辑技术(如 SD Inpaint、ControlNet、SDXL)使得高度逼真的图像篡改变得极为简单,对公众信任和社会稳定构成严重威胁。现有篡改定位方法主要采用被动事后分析策略,依赖于训练阶段学到的特定伪造模式,面临以下问题:
- 泛化能力不足:仅对训练中见过的篡改类型有效,遇到新型 AIGC 编辑时效果骤降
- 数据依赖严重:需要大量标注的篡改样本用于训练
- 计算资源门槛高:训练篡改检测基础模型需要巨大算力
作者提出一个关键洞察:在空白画布上的涂改远比在复杂图像上的修改更容易被发现。因此,与其事后检测篡改痕迹,不如事先将图像在视觉基础模型的视角下转化为"空白画布"——任何篡改都会变得显而易见。
方法详解¶
整体框架¶
整体流程包含两个阶段:
- 空白画布创建阶段:对原始图像添加不可见对抗扰动,使 SAM 无法对图像进行任何分割("Segment Nothing")
- 篡改定位阶段:当受保护图像被篡改后,篡改区域破坏了对抗扰动,SAM 可重新感知并分割出这些区域
图像拥有者在发布前对图像执行保护操作,扰动对人眼不可见但能完全欺骗 SAM。使用 SAM ViT-H 作为基础模型,采用单点提示(坐标 (0,0))进行推理。
关键设计¶
1. 空白画布创建——基础对抗攻击¶
核心目标是找到扰动 \(\delta\),使 SAM 对受保护图像的输出置信度收敛于常数 \(C\):
采用 MSE 损失优化扰动:
其中 \(C=15\)(与 SAM 背景区域的典型置信度值一致)。使用 PGD 框架优化,最大扰动幅度 \(16/255\),步长 \(2/255\)。
2. 频率感知优化(核心创新)¶
实验发现朴素对抗攻击无法完全欺骗 SAM——SAM 在高频边缘和纹理区域仍保留感知能力。因此提出频率感知优化策略,包含三个协同组件:
(a)小波域高频分解(\(\mathcal{L}_{\text{hfc}}\)):使用 Daubechies-8 小波基进行离散小波变换,提取高频分量并以 Canny 边缘掩码约束扰动:
(b)结构保持约束(\(\mathcal{L}_{\text{lfc}}\)):利用自适应 SSIM 保护低频分量,维持图像视觉自然度:
(c)自适应频谱优化:在频率域中设计频谱投影掩码 \(\mathcal{M}\),将扰动能量集中在高频带:
最终优化目标融合所有损失项,并采用带动量的自适应步长梯度更新方法。
3. 篡改定位¶
对受保护的"空白画布"图像,篡改操作 \(\Delta x\) 会破坏局部对抗扰动,使 SAM 重新感知这些区域:
检测阈值 \(\tau_{\text{detect}}\) 通过 Otsu 方法自适应确定。
损失函数 / 训练策略¶
总体优化目标为:
- 免训练方法:整个过程不需要训练任何网络,仅优化图像级扰动
- 使用 PGD 框架,带频谱投影的动量梯度更新
- 学习率采用指数预热策略:\(\alpha_t = \alpha_0(1 - e^{-5t/T})\)
实验关键数据¶
主实验¶
表1:经典篡改定位基准对比
| 方法 | CASIA1+ IoU/F1 | Columbia IoU/F1 | NIST IoU/F1 |
|---|---|---|---|
| MVSS-Net | 0.40/0.48 | 0.48/0.61 | 0.24/0.29 |
| FakeShield | 0.56/0.62 | 0.68/0.76 | 0.34/0.39 |
| EditGuard | 0.60/0.67 | 0.70/0.78 | 0.35/0.40 |
| Ours | 0.62/0.67 | 0.74/0.81 | 0.31/0.45 |
表2:AIGC 编辑方法对比(F1/IoU)
| 方法 | SD Inpaint | ControlNet | SDXL | RePaint |
|---|---|---|---|---|
| MVSS-Net† | 0.694/0.575 | 0.678/0.558 | 0.482/0.359 | 0.185/0.111 |
| EditGuard | 0.966/0.936 | 0.968/0.940 | 0.965/0.936 | 0.967/0.938 |
| Ours | 0.972/0.958 | 0.973/0.938 | 0.970/0.958 | 0.961/0.957 |
在 AIGC 编辑场景下,本方法 F1 > 95%、IoU ≈ 95%,全面超越被动方法且与 EditGuard 持平或略优。
消融实验¶
| 配置 | F1 | IoU |
|---|---|---|
| 无保护 (a) | 0.352 | 0.378 |
| 仅 \(\mathcal{L}_{\text{mse}}\) + \(\mathcal{L}_{\text{stealth}}\) (b) | 0.934 | 0.928 |
| \(\mathcal{L}_{\text{mse}}\) + 自适应优化 (c) | 0.931 | 0.921 |
| 完整方法 | 0.964 | 0.955 |
关键发现¶
- 朴素对抗攻击(仅 MSE loss)在高频区域仍无法完全欺骗 SAM,会产生假阳性
- 频率感知优化是关键——移除后性能退化到无保护水平
- 方法无需任何篡改训练数据,是真正的零样本篡改定位
- 在 AIGC 编辑场景下显著优于所有被动方法(被动方法 F1 < 0.7)
亮点与洞察¶
- 范式创新:从被动检测转向主动保护,将"检测篡改"问题转化为"在空白画布上找痕迹"——概念简洁而有效
- 免训练设计:仅优化图像级扰动,不需要训练任何模型,利用现成 SAM 即可
- 频域理解深刻:准确诊断了 SAM 在高频区域的鲁棒性问题,并提出针对性的频率感知优化
- 实用性强:图像拥有者可在发布前一键保护,任何人都可用标准 SAM 验证篡改
局限性 / 可改进方向¶
- 白盒假设:当前方法需要访问 SAM 的完整模型权重,对其他视觉基础模型的迁移性未验证
- 扰动可见性:\(16/255\) 的扰动上界在某些场景下可能影响图像质量
- 社交平台压缩鲁棒性:JPEG 压缩、缩放等社交媒体常见操作可能破坏对抗扰动
- 对抗性篡改:若篡改者知道保护机制,可能设计针对性的"去保护"攻击
- 可探索将方法扩展到 SAM2 或其他视觉基础模型
相关工作与启发¶
- EditGuard:同为主动保护方法,但依赖隐写术嵌入信息,可解释性不足
- SAM-Attack / Dark-SAM:研究 SAM 对抗鲁棒性,但目标是攻击而非保护
- 本文将对抗攻击创造性地应用于图像保护,思路值得借鉴到其他领域
- 启发:可否用类似思路保护视频、3D 内容免受 AI 篡改?
评分¶
- 新颖性: ⭐⭐⭐⭐⭐(空白画布概念非常新颖)
- 技术深度: ⭐⭐⭐⭐(频率感知优化设计精巧)
- 实验完整性: ⭐⭐⭐⭐(经典+AIGC 双场景验证)
- 实用价值: ⭐⭐⭐⭐(免训练,直接可用)
- 总体评分: 8.5/10