跳转至

Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection

会议: ICCV 2025
arXiv: 2501.01184
代码: GitHub
领域: AI安全
关键词: 深度伪造检测, 时空学习, 数据合成, 多任务学习, 脆弱性感知

一句话总结

本文提出FakeSTormer,一个细粒度的生成式深度伪造视频检测框架,通过多任务学习同时建模时间和空间脆弱性区域,配合自混合视频(SBV)数据合成策略生成高质量伪造样本,仅用真实数据训练即可在多个跨数据集基准上达到SOTA泛化性能。

研究背景与动机

随着生成式AI的进步,深度伪造(Deepfake)视频日益逼真,对社会安全构成严重威胁。现有方法面临两大核心挑战:

泛化性不足:大多数方法依赖二分类器,在训练伪造类型上表现好但泛化到未见过的操纵方法时性能骤降。原因是单一的二分类损失使模型过拟合特定伪造痕迹。

对高质量伪造鲁棒性差:随着伪造技术进步,时空伪造痕迹越来越微弱,现有的隐式注意力机制无法可靠地捕获这些细微伪影。

图像级 vs 视频级的鸿沟:在图像级伪造检测中,多任务学习+脆弱性感知+精细数据合成已证明有效(如LAA-Net),但将其扩展到视频级并不直接——需要同时处理本质不同的时间和空间伪影,且视频级数据合成需保持时间一致性。

核心idea:将深度伪造视频检测重新定义为细粒度检测任务,通过三分支多任务框架分别学习分类、空间脆弱性和时间脆弱性,配合高质量的Self-Blended Video(SBV)数据合成,仅使用真实视频训练。

方法详解

整体框架

FakeSTormer包含三大模块: 1. SBV数据合成:将SBI扩展到视频级,生成时间一致的伪造视频和对应标注 2. 改进的TimeSformer骨干:分解空间和时间token以解耦特征学习 3. 三分支多任务头:分类头 \(f\)、时间头 \(h\)(回归时间脆弱性导数)、空间头 \(g\)(预测逐帧空间脆弱性软标签)

关键设计

  1. Self-Blended Video(SBV)数据合成:

    • 功能:从真实视频生成高质量伪造视频,提供免标注的训练信号
    • 核心思路:在SBI(Self-Blended Image)基础上增加两个时间一致性模块:
      • Consistent Synthesized Parameters (CSP):固定第一帧的所有混合参数 \(\theta^{(sbi)}\)(ConvexHull类型、掩码变形核、混合比例等),用于后续帧
      • Landmark Interpolation (LI):当相邻帧关键点变化过大时插值平滑:\(\mathbf{l}_i(t) = \mathbf{l}_i(t-1) + \frac{\mathbf{l}_i(t) - \mathbf{l}_i(t-1)}{\text{round}(d/\bar{d})}\),用 \(\text{round}\) 引入轻微误差以保留微妙的时间伪影
    • 设计动机:现有视频级数据合成(如STC、VB)引入夸张的时间失真,与真实高质量伪造不符;SBV通过保持时间一致性生成更接近真实伪造的样本
  2. 脆弱性驱动的Cutout数据增强:

    • 功能:遮挡最易包含混合伪影的区域,防止模型过拟合特定伪影位置
    • 核心思路:计算混合边界 \(\mathbf{B} = (\mathbf{1} - \mathbf{M}) * \mathbf{M} * 4\),通过MaxPooling量化patch级脆弱性值 \(\bar{\mathbf{B}}\),随机选择阈值 \(\tau_{cutout} \in (0.5, 1.0]\),遮挡超过阈值的patch(在所有帧中保持一致位置)
    • 设计动机:模型容易过拟合混合边界区域,遮挡后迫使模型学习其他区域的特征
  3. 改进的TimeSformer骨干:

    • 功能:为三分支框架提供解耦的时空特征
    • 核心思路:在TimeSformer的每个维度上添加空间token \(\mathbf{z}_s^0\) 和时间token \(\mathbf{z}_t^0\),它们分别只与对应轴的patch嵌入交互。经过 \(L=12\) 层Transformer后输出 \([\mathbf{Z}^L, \mathbf{z}_s^L, \mathbf{z}_t^L]\),分别送入不同的头
    • 设计动机:原始TimeSformer的全局CLS token混合了时空特征,不利于解耦学习;计算复杂度从 \(\mathcal{O}(T^2 \cdot N^2)\) 优化到 \(\mathcal{O}(T^2 + N^2)\)
  4. 时间头 \(h\) — 时间脆弱性回归:

    • 功能:预测混合边界随时间的导数,捕获时间伪影的高变化区域
    • 核心思路:将patch嵌入reshape为3D特征,经过两层3D卷积(时间核3 × 空间核1)回归标准化后的时间导数 \(\hat{\mathbf{D}} = \partial\tilde{\mathbf{B}}/\partial t\)。损失函数为MSE:\(\mathcal{L}_h = \frac{1}{T \times N}\|\hat{\mathbf{D}} - \tilde{\mathbf{D}}\|_2^2\)
    • 设计动机:时间上变化剧烈的混合边界反映了时间伪影的存在,这是视频级检测的关键信号
  5. 空间头 \(g\) — 空间脆弱性预测:

    • 功能:预测每帧的空间伪影强度软标签
    • 核心思路:对空间token使用MLP,预测逐帧软标签 \(\tilde{\mathbf{p}} = \text{MLP}(\mathbf{z}_s^L)\),标签 \(p(t) = \max_{l,m}(\tilde{\mathbf{B}}(t))\)。损失为BCE:\(\mathcal{L}_g = \text{BCE}(\tilde{\mathbf{p}}, \mathbf{p})\)
    • 设计动机:空间伪影检测是时间伪影检测的必要补充,两者协同可全面捕获伪造痕迹

损失函数 / 训练策略

总损失:\(\mathcal{L} = \lambda_c \mathcal{L}_c + \lambda_h \mathcal{L}_h + \lambda_g \mathcal{L}_g\)

  • \(\mathcal{L}_c\):二分类BCE损失(真/伪区分)
  • \(\mathcal{L}_h\):时间脆弱性MSE回归损失
  • \(\mathcal{L}_g\):空间脆弱性BCE损失
  • 仅使用真实数据训练(伪造数据由SBV在线合成)

实验关键数据

主实验(跨数据集泛化 - 训练于FF++(c23))

方法 训练数据 CDF(AUC%) DFD DFDCP DFDC DFW DiffSwap
SBI 真实 90.6 - - 72.4 - -
AltFreezing 真+伪 89.5 98.5 - - - -
Swin+TALL 真+伪 90.8 - 76.8 - - -
LFGDIN 真+伪 90.4 - 80.8 - - 85.7
LAA-Net 真实 95.4 86.9 92.1 - - -
FakeSTormer(T=16) 真实 92.8 98.6 90.2 75.1 75.3 97.2

消融实验

配置 CDF(AUC%) DFDCP 说明
基线(仅分类头+SBI) 89.2 85.3 无多任务学习
+ SBV替换SBI 91.0 88.1 SBV数据合成显著提升
+ 时间头 \(h\) 91.8 89.3 时间脆弱性回归有效
+ 空间头 \(g\) 92.4 90.0 空间脆弱性预测进一步提升
+ Cutout增强 92.8 90.2 避免过拟合特定区域
T=4 vs T=8 vs T=16 92.4/92.4/92.8 90.0/90.0/90.2 更多帧略有帮助

关键发现

  • 仅使用SBV训练基线分类器即可匹敌SOTA,证明了数据合成的强大效果
  • 时间头和空间头各自独立贡献,且它们的组合效果大于单独使用
  • Cutout增强在DF40等新型伪造方法的数据集上提升尤为明显
  • 改进的TimeSformer的token解耦设计对三分支框架至关重要

亮点与洞察

  • 脆弱性概念的时间域扩展:将图像级脆弱性(最可能嵌入混合伪影的像素/patch)扩展到视频级的时间脆弱性(时间上变化剧烈的混合边界),这一定义自然且有效
  • 数据合成质量是关键:SBV的两个时间一致性模块虽简单,却是性能大幅提升的主要原因
  • 仅用真实数据训练:避免了对特定伪造方法的过拟合,提升泛化性
  • 即插即用设计:SBV可以应用于任何现有的视频级伪造检测方法

局限与展望

  • TimeSformer计算开销较大,视频处理速度可能成为实际部署瓶颈
  • SBV生成的伪造样本仍基于混合策略,可能与非混合型伪造(如纯生成式、SAM换脸等)差异较大
  • 时间脆弱性仅用一阶导数建模,可能遗漏更高阶的时间模式
  • 未测试在超高质量AI生成视频(如Sora、Kling等)上的效果
  • 三个损失的权重 \(\lambda_c, \lambda_h, \lambda_g\) 需要手动调节

相关工作与启发

  • 从图像级LAA-Net到视频级FakeSTormer的扩展路径清晰,为其他图像级方法的视频化提供了范式
  • 脆弱性驱动的注意力机制可能扩展到其他视觉异常检测任务
  • SBV的时间平滑+轻微误差保留思路对其他视频增强任务有参考价值
  • 多分支框架中token解耦的设计思路可借鉴到其他多任务视频理解任务

评分

  • 新颖性: ⭐⭐⭐⭐ 脆弱性概念的时间扩展和SBV是核心贡献,但整体框架沿用了LAA-Net的思路
  • 实验充分度: ⭐⭐⭐⭐⭐ 跨6个测试集、与15+方法对比、详尽消融、可视化分析
  • 写作质量: ⭐⭐⭐⭐ 图表清晰,方法描述完整,但部分符号稍显冗余
  • 价值: ⭐⭐⭐⭐⭐ 视频级伪造检测的强基线,数据合成和多任务框架设计具有广泛适用性

相关论文