Anti-I2V: Safeguarding your photos from malicious image-to-video generation¶

会议: CVPR 2026
arXiv: 2603.24570
代码: 无
领域: Image Generation / AI Safety
关键词: 对抗攻击, 视频扩散模型, 图像保护, 双空间扰动, 深度特征崩塌

一句话总结¶

Anti-I2V 提出了一种针对恶意图像到视频生成的防御方法，通过在 L*a*b* 和频域双空间优化扰动，并设计内部表示崩塌（IRC）和锚定（IRA）损失破坏去噪网络的语义特征传播，在 CogVideoX、DynamiCrafter 和 Open-Sora 三种不同架构上实现 SOTA 防护效果。

研究背景与动机¶

领域现状：视频扩散模型（VDM）快速发展，CogVideoX、Open-Sora 等模型可从单张照片+文本生成逼真视频，带来深度伪造的严重滥用风险。

现有痛点： - 现有防御主要针对文图生成或特定架构（SVD），对 DiT/MMDiT 架构的大模型效果未验证； - RGB 空间扰动容易被去噪过程消除，鲁棒性不足； - 大多数方法仅攻击最终输出（VAE 编码或去噪网络末端），忽视了中间层特征传播。

核心矛盾：视频扩散模型容量更大、时序建模更强，传统扰动方法难以有效干扰——如何设计更深层次的干扰策略？

本文切入角度：双管齐下——在更鲁棒的非 RGB 空间优化扰动 + 在网络内部识别语义丰富层并针对性破坏特征传播。

核心 idea：L*a*b* + 频域双空间扰动 + 深层→浅层特征崩塌 + 跨层语义锚定 = 有效攻击大规模 VDM。

方法详解¶

整体框架¶

输入图像 $x$ → 用 LVLM 生成caption → 参考视频 → 双空间扰动优化（L*a*b* + DCT）→ IRC 和 IRA 损失 + 扩散损失 + 辅助损失 → 输出保护图像 $x_\xi$，使 VDM 生成的视频质量严重退化。

关键设计¶

双空间扰动（Dual-Space Perturbation, DSP）：
- 功能：在 L*a*b* 色彩空间和 DCT 频域两个非 RGB 空间中优化对抗噪声。
- 核心思路：
  - L*a*b* 阶段：仅扰动 $a^*$ 和 $b^*$ 通道（色度），不影响亮度 $L^*$，使扰动对人眼更不可见
  - DCT 阶段：在低频 DCT 系数上注入噪声（低频携带结构/纹理信息），通过频域扰动干扰更深层的表示
  - 两阶段交替更新，最终投影到 RGB 空间的 $\Delta_{RGB}$ 约束内
- 设计动机：RGB 像素级扰动在扩散模型的多步去噪中容易被"洗掉"。L*a*b* 对人感知更均匀；DCT 低频系数对应图像核心结构，扰动效果更持久。
内部表示崩塌损失（Internal Representation Collapse, IRC）：
- 功能：强制深层（语义丰富）的特征退化为浅层（低语义）的特征。
- 核心思路：
  - PCA 可视化发现：OpenSora 第 19 层后、CogVideoX 第 27 层后出现高级语义特征，而第 3 层几乎无语义
  - 损失：$\mathcal{L}_{IRC}^{i,j} = \mathbb{E}\|\epsilon_\theta^j(z_t, z_\xi, t, y) - \epsilon_\theta^i(z_t, z_\xi, t, y)\|_2^2$
  - 将最后 3 层的特征对齐到第 3 层
- 设计动机：通过崩塌深层语义特征，去噪过程失去重建有意义结构的能力，且效果通过注意力机制级联传播到所有帧。
内部表示锚定损失（Internal Representation Anchor, IRA）：
- 功能：在去噪模块和 VAE 的每一层，将保护图像的特征"锚定"到无关目标图像的特征。
- 核心思路： $\mathcal{L}_{IRA} = \mathcal{L}_{IRA,\epsilon_\theta} + \mathcal{L}_{IRA,E}$
  - 去噪模块层级：$\|\epsilon_\theta^m(z_t, z_\xi, t, y) - \epsilon_\theta^m(z_t, z_\psi, t, y)\|_2^2$
  - VAE 层级：$\|E^n(z_\xi) - E^n(z_\psi)\|_2^2$
- 设计动机：不仅崩塌语义（IRC），还主动将特征引导到错误方向（IRA），双重破坏更有效。

最终目标函数¶

$$\mathcal{L}_{Anti-I2V} = \mathcal{L}_{IRC} + \mathcal{L}_{IRA} + \mathcal{L}_{auxiliary} - \mathcal{L}_{DM}$$ - 辅助损失：CLIP 特征距离最大化 + LPIPS 感知距离最大化

实验关键数据¶

主实验（CelebV-Text 数据集）¶

模型	方法	ISM↓	C-FIQA↓	Q-A(F)↓	Q-A(V)↓	DINO↓
CogVideoX	Clean	0.721	0.522	0.746	0.802	0.828
CogVideoX	MIST	0.561	0.463	0.476	0.577	0.750
CogVideoX	Anti-I2V	0.448	0.433	0.447	0.532	0.722
DynamiCrafter	Clean	0.528	0.467	0.724	0.794	0.622
DynamiCrafter	AdvDM	0.269	0.370	0.167	0.207	0.397
DynamiCrafter	Anti-I2V	0.151	0.303	0.032	0.047	0.167

消融实验¶

配置	ISM↓	Q-A(V)↓	说明
仅 RGB 扰动	0.583	0.543	基线（类似 AdvDM）
+ Lab*	0.521	0.511	色彩空间扰动更有效
+ DCT	0.498	0.496	频域进一步提升
+ IRC	0.472	0.558	语义崩塌有效
+ IRA	0.460	0.540	锚定损失补充
完整 Anti-I2V	0.448	0.532	所有组件协同最优

关键发现¶

对 DynamiCrafter（UNet 架构）效果最为显著，Q-A(V) 从 0.794 降至 0.047
对 CogVideoX（DiT 架构）同样有效，验证了跨架构泛化能力
简单的层选择策略（最后 3 层→第 3 层）在不同架构上通用

亮点与洞察¶

首次系统研究非 RGB 空间的对抗扰动优化，L*a*b* + 频域组合是有效的新方向
IRC 损失基于对去噪网络层特征的 PCA 分析，有理论支撑
适用于 UNet、DiT、MMDiT 三种主流架构，实用性强

局限与展望¶

扰动优化仍需对目标模型白盒访问，黑盒迁移性未充分验证
面对图像预处理（JPEG 压缩、模糊）后的鲁棒性有待更多分析
运行效率：PGD 迭代优化扰动的计算开销较高

评分¶

新颖性: ⭐⭐⭐⭐ 双空间扰动+层级特征崩塌的组合设计新颖
实验充分度: ⭐⭐⭐⭐ 三种VDM架构×两个数据集，消融充分
写作质量: ⭐⭐⭐⭐ 技术细节详尽，PCA分析直观
价值: ⭐⭐⭐⭐ 对AI安全和隐私保护有重要现实意义