Architecture-Agnostic Feature Synergy for Universal Defense Against Heterogeneous Generative Threats¶

日期: 2026-03-16
arXiv: 2603.14860
代码: 开源（论文声明）
领域: 图像生成 / AI安全
关键词: 对抗防御, 生成模型, 特征空间对齐, 跨架构防护, 人脸保护

一句话总结¶

诊断了异构生成模型（扩散+GAN）在像素空间的梯度统计正交导致朴素集成防御失效的根本原因，提出 ATFS 框架通过引入目标引导图像将多模型防御统一为特征空间对齐任务，在 DM+GAN 和 DM+VAE 场景下全面超越专用防御方法和 PCGrad 梯度修正基线。

领域现状: 生成式 AI（扩散模型、GAN、VQ-VAE）的泛滥带来内容安全和隐私风险。主动防御通过在原图中嵌入不可察觉扰动来破坏生成过程，已有针对扩散模型（Mist、PhotoGuard）和 GAN（Anti-Forgery）的专用方法。
现有痛点: "防御孤岛"现象——针对扩散模型优化的扰动对 GAN 无效，反之亦然。现实威胁是异构且未知的，防御者无法预知攻击者使用哪种模型架构。
核心矛盾: 朴素的多模型联合攻击（简单聚合损失梯度）在实践中失败。根本原因是异构生成模型有本质不同的优化目标——扩散模型用 score matching 学习数据分布梯度场，GAN 通过 minimax 博弈优化判别边界，导致像素空间梯度统计正交：\(\mathbb{E}[\langle \nabla_x L_D, \nabla_x L_G \rangle] \approx 0\)，联合优化产生破坏性干扰而非协同。
切入角度: 经验观察发现尽管低层生成机制不同，所有能产生视觉合理内容的模型在高层特征空间中对相似感知内容表现出对齐——因为它们的编码器都被设计为提取驱动后续生成的高层特征。
核心 idea: 从"像素级冲突"转向"特征级共识"——引入目标引导图像提供统一的特征变化方向，将多模型防御转化为特征空间对齐任务，使原本冲突的梯度在特征级自然对齐。

特征空间对齐优化:
- 做什么：将多模型防御统一为单一优化目标
- 核心思路：定义统一损失 \(J(\delta) = \sum_{k=1}^K \omega_k \|\Phi_k(x+\delta) - t_k\|_2^2\)，用 PGD 最小化。各模型的梯度 \(\nabla_x L_k^{align} = 2 \cdot \mathbf{J}_{\Phi_k}^\top(x) \cdot (\Phi_k(x) - t_k)\)
- 为什么能对齐：(a) 所有模型的优化目标一致——减小到各自目标的距离，方向相似；(b) Jacobian \(\mathbf{J}_{\Phi_k}\) 的主方向对应高层特征变化最相关的像素结构变化，各模型虽 Jacobian 不同但映射的"特征扭曲意图"类似
- 设计动机：避免像素空间的破坏性干扰，在特征空间实现建设性叠加
目标引导图像选择:
- 做什么：提供共享的特征变化方向
- 核心思路：选择与自然图像特征分布差异大的图案——高对比条纹、Moiré 图案、过度繁忙纹理。不需要与原图有任何相关性
- 设计动机：目标图像的特征与原图差异越大，优化信号越强，特征空间中的位移越明确
梯度归一化:
- 做什么：消除异构模型间的梯度幅度差异
- 核心思路：\(\hat{g}_k = g_k / (\|g_k\|_2 + \xi)\)，确保每个模型贡献由梯度方向而非幅度决定
- 设计动机：不同模型特征维度、激活幅度、损失面尺度差异巨大，不归一化会导致优化被单一模型主导

方法	SDEdit MS-SSIM↓	SDEdit IL-NIQE↑	StarGANEdit MS-SSIM↓	StarGANEdit IL-NIQE↑
Original	0.8516	28.17	0.9989	30.33
MIST（扩散专用）	0.6387	39.65	0.8011	32.16
Anti-Forgery（GAN专用）	0.7534	33.79	0.5464	42.46
Naive Joint	0.6812	35.30	0.6503	38.74
PCGrad	~0.65	~37	0.6204	~39
ATFS (Ours)	~0.58	~42	0.5228	~44

ATFS 在两个编辑任务上全面超越所有基线，特别是打破了"防御孤岛"。

防御孤岛真实存在: MIST 在 StarGANEdit 上 MS-SSIM 0.80（几乎无效），Anti-Forgery 在 SDEdit 上 0.75，证实了跨架构迁移的根本困难
朴素联合不够: 简单梯度聚合比专用方法好一些但远不如 ATFS，证实像素空间梯度冲突是真实瓶颈
特征对齐高效: 40 迭代达 90% 性能，远快于 PCGrad 等梯度修正方法
低预算可行: \(\epsilon=2/255\)（几乎完全不可见）下仍能有效干扰编辑结果