Anti-I2V: Safeguarding your photos from malicious image-to-video generation¶
会议: CVPR 2026
arXiv: 2603.24570
代码: 无
领域: Image Generation / AI Safety
关键词: 对抗攻击, 视频扩散模型, 图像保护, 双空间扰动, 深度特征崩塌
一句话总结¶
Anti-I2V 提出了一种针对恶意图像到视频生成的防御方法,通过在 L*a*b* 和频域双空间优化扰动,并设计内部表示崩塌(IRC)和锚定(IRA)损失破坏去噪网络的语义特征传播,在 CogVideoX、DynamiCrafter 和 Open-Sora 三种不同架构上实现 SOTA 防护效果。
研究背景与动机¶
领域现状:视频扩散模型(VDM)快速发展,CogVideoX、Open-Sora 等模型可从单张照片+文本生成逼真视频,带来深度伪造的严重滥用风险。
现有痛点: - 现有防御主要针对文图生成或特定架构(SVD),对 DiT/MMDiT 架构的大模型效果未验证; - RGB 空间扰动容易被去噪过程消除,鲁棒性不足; - 大多数方法仅攻击最终输出(VAE 编码或去噪网络末端),忽视了中间层特征传播。
核心矛盾:视频扩散模型容量更大、时序建模更强,传统扰动方法难以有效干扰——如何设计更深层次的干扰策略?
本文切入角度:双管齐下——在更鲁棒的非 RGB 空间优化扰动 + 在网络内部识别语义丰富层并针对性破坏特征传播。
核心 idea:L*a*b* + 频域双空间扰动 + 深层→浅层特征崩塌 + 跨层语义锚定 = 有效攻击大规模 VDM。
方法详解¶
整体框架¶
输入图像 \(x\) → 用 LVLM 生成caption → 参考视频 → 双空间扰动优化(L*a*b* + DCT)→ IRC 和 IRA 损失 + 扩散损失 + 辅助损失 → 输出保护图像 \(x_\xi\),使 VDM 生成的视频质量严重退化。
关键设计¶
-
双空间扰动(Dual-Space Perturbation, DSP):
- 功能:在 L*a*b* 色彩空间和 DCT 频域两个非 RGB 空间中优化对抗噪声。
- 核心思路:
- L*a*b* 阶段:仅扰动 \(a^*\) 和 \(b^*\) 通道(色度),不影响亮度 \(L^*\),使扰动对人眼更不可见
- DCT 阶段:在低频 DCT 系数上注入噪声(低频携带结构/纹理信息),通过频域扰动干扰更深层的表示
- 两阶段交替更新,最终投影到 RGB 空间的 \(\Delta_{RGB}\) 约束内
- 设计动机:RGB 像素级扰动在扩散模型的多步去噪中容易被"洗掉"。L*a*b* 对人感知更均匀;DCT 低频系数对应图像核心结构,扰动效果更持久。
-
内部表示崩塌损失(Internal Representation Collapse, IRC):
- 功能:强制深层(语义丰富)的特征退化为浅层(低语义)的特征。
- 核心思路:
- PCA 可视化发现:OpenSora 第 19 层后、CogVideoX 第 27 层后出现高级语义特征,而第 3 层几乎无语义
- 损失:\(\mathcal{L}_{IRC}^{i,j} = \mathbb{E}\|\epsilon_\theta^j(z_t, z_\xi, t, y) - \epsilon_\theta^i(z_t, z_\xi, t, y)\|_2^2\)
- 将最后 3 层的特征对齐到第 3 层
- 设计动机:通过崩塌深层语义特征,去噪过程失去重建有意义结构的能力,且效果通过注意力机制级联传播到所有帧。
-
内部表示锚定损失(Internal Representation Anchor, IRA):
- 功能:在去噪模块和 VAE 的每一层,将保护图像的特征"锚定"到无关目标图像的特征。
- 核心思路:
\(\mathcal{L}_{IRA} = \mathcal{L}_{IRA,\epsilon_\theta} + \mathcal{L}_{IRA,E}\)
- 去噪模块层级:\(\|\epsilon_\theta^m(z_t, z_\xi, t, y) - \epsilon_\theta^m(z_t, z_\psi, t, y)\|_2^2\)
- VAE 层级:\(\|E^n(z_\xi) - E^n(z_\psi)\|_2^2\)
- 设计动机:不仅崩塌语义(IRC),还主动将特征引导到错误方向(IRA),双重破坏更有效。
最终目标函数¶
$\(\mathcal{L}_{Anti-I2V} = \mathcal{L}_{IRC} + \mathcal{L}_{IRA} + \mathcal{L}_{auxiliary} - \mathcal{L}_{DM}\)$ - 辅助损失:CLIP 特征距离最大化 + LPIPS 感知距离最大化
实验关键数据¶
主实验(CelebV-Text 数据集)¶
| 模型 | 方法 | ISM↓ | C-FIQA↓ | Q-A(F)↓ | Q-A(V)↓ | DINO↓ |
|---|---|---|---|---|---|---|
| CogVideoX | Clean | 0.721 | 0.522 | 0.746 | 0.802 | 0.828 |
| CogVideoX | MIST | 0.561 | 0.463 | 0.476 | 0.577 | 0.750 |
| CogVideoX | Anti-I2V | 0.448 | 0.433 | 0.447 | 0.532 | 0.722 |
| DynamiCrafter | Clean | 0.528 | 0.467 | 0.724 | 0.794 | 0.622 |
| DynamiCrafter | AdvDM | 0.269 | 0.370 | 0.167 | 0.207 | 0.397 |
| DynamiCrafter | Anti-I2V | 0.151 | 0.303 | 0.032 | 0.047 | 0.167 |
消融实验¶
| 配置 | ISM↓ | Q-A(V)↓ | 说明 |
|---|---|---|---|
| 仅 RGB 扰动 | 0.583 | 0.543 | 基线(类似 AdvDM) |
| + L*a*b* | 0.521 | 0.511 | 色彩空间扰动更有效 |
| + DCT | 0.498 | 0.496 | 频域进一步提升 |
| + IRC | 0.472 | 0.558 | 语义崩塌有效 |
| + IRA | 0.460 | 0.540 | 锚定损失补充 |
| 完整 Anti-I2V | 0.448 | 0.532 | 所有组件协同最优 |
关键发现¶
- 对 DynamiCrafter(UNet 架构)效果最为显著,Q-A(V) 从 0.794 降至 0.047
- 对 CogVideoX(DiT 架构)同样有效,验证了跨架构泛化能力
- 简单的层选择策略(最后 3 层→第 3 层)在不同架构上通用
亮点与洞察¶
- 首次系统研究非 RGB 空间的对抗扰动优化,L*a*b* + 频域组合是有效的新方向
- IRC 损失基于对去噪网络层特征的 PCA 分析,有理论支撑
- 适用于 UNet、DiT、MMDiT 三种主流架构,实用性强
局限与展望¶
- 扰动优化仍需对目标模型白盒访问,黑盒迁移性未充分验证
- 面对图像预处理(JPEG 压缩、模糊)后的鲁棒性有待更多分析
- 运行效率:PGD 迭代优化扰动的计算开销较高
相关工作与启发¶
- 与 MIST 的文本损失类似但扩展到层级别
- DSP 思路可推广到其他对抗攻击/防御场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 双空间扰动+层级特征崩塌的组合设计新颖
- 实验充分度: ⭐⭐⭐⭐ 三种VDM架构×两个数据集,消融充分
- 写作质量: ⭐⭐⭐⭐ 技术细节详尽,PCA分析直观
- 价值: ⭐⭐⭐⭐ 对AI安全和隐私保护有重要现实意义
相关论文¶
- [CVPR 2026] Let Your Image Move with Your Motion! – Implicit Multi-Object Multi-Motion Transfer
- [ICCV 2025] TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation
- [ICCV 2025] RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control
- [CVPR 2026] Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization
- [CVPR 2026] Physical Simulator In-the-Loop Video Generation