Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection¶

会议: ICCV 2025
arXiv: 2501.01184
代码: GitHub
领域: AI安全
关键词: 深度伪造检测, 时空学习, 数据合成, 多任务学习, 脆弱性感知

一句话总结¶

本文提出FakeSTormer，一个细粒度的生成式深度伪造视频检测框架，通过多任务学习同时建模时间和空间脆弱性区域，配合自混合视频（SBV）数据合成策略生成高质量伪造样本，仅用真实数据训练即可在多个跨数据集基准上达到SOTA泛化性能。

研究背景与动机¶

随着生成式AI的进步，深度伪造（Deepfake）视频日益逼真，对社会安全构成严重威胁。现有方法面临两大核心挑战：

泛化性不足：大多数方法依赖二分类器，在训练伪造类型上表现好但泛化到未见过的操纵方法时性能骤降。原因是单一的二分类损失使模型过拟合特定伪造痕迹。

对高质量伪造鲁棒性差：随着伪造技术进步，时空伪造痕迹越来越微弱，现有的隐式注意力机制无法可靠地捕获这些细微伪影。

图像级 vs 视频级的鸿沟：在图像级伪造检测中，多任务学习+脆弱性感知+精细数据合成已证明有效（如LAA-Net），但将其扩展到视频级并不直接——需要同时处理本质不同的时间和空间伪影，且视频级数据合成需保持时间一致性。

核心idea：将深度伪造视频检测重新定义为细粒度检测任务，通过三分支多任务框架分别学习分类、空间脆弱性和时间脆弱性，配合高质量的Self-Blended Video（SBV）数据合成，仅使用真实视频训练。

方法详解¶

整体框架¶

FakeSTormer包含三大模块： 1. SBV数据合成：将SBI扩展到视频级，生成时间一致的伪造视频和对应标注 2. 改进的TimeSformer骨干：分解空间和时间token以解耦特征学习 3. 三分支多任务头：分类头 \(f\)、时间头 \(h\)（回归时间脆弱性导数）、空间头 \(g\)（预测逐帧空间脆弱性软标签）

关键设计¶

Self-Blended Video（SBV）数据合成:
- 功能：从真实视频生成高质量伪造视频，提供免标注的训练信号
- 核心思路：在SBI（Self-Blended Image）基础上增加两个时间一致性模块：
  - Consistent Synthesized Parameters (CSP)：固定第一帧的所有混合参数 \(\theta^{(sbi)}\)（ConvexHull类型、掩码变形核、混合比例等），用于后续帧
  - Landmark Interpolation (LI)：当相邻帧关键点变化过大时插值平滑：\(\mathbf{l}_i(t) = \mathbf{l}_i(t-1) + \frac{\mathbf{l}_i(t) - \mathbf{l}_i(t-1)}{\text{round}(d/\bar{d})}\)，用 \(\text{round}\) 引入轻微误差以保留微妙的时间伪影
- 设计动机：现有视频级数据合成（如STC、VB）引入夸张的时间失真，与真实高质量伪造不符；SBV通过保持时间一致性生成更接近真实伪造的样本
脆弱性驱动的Cutout数据增强:
- 功能：遮挡最易包含混合伪影的区域，防止模型过拟合特定伪影位置
- 核心思路：计算混合边界 \(\mathbf{B} = (\mathbf{1} - \mathbf{M}) * \mathbf{M} * 4\)，通过MaxPooling量化patch级脆弱性值 \(\bar{\mathbf{B}}\)，随机选择阈值 \(\tau_{cutout} \in (0.5, 1.0]\)，遮挡超过阈值的patch（在所有帧中保持一致位置）
- 设计动机：模型容易过拟合混合边界区域，遮挡后迫使模型学习其他区域的特征
改进的TimeSformer骨干:
- 功能：为三分支框架提供解耦的时空特征
- 核心思路：在TimeSformer的每个维度上添加空间token \(\mathbf{z}_s^0\) 和时间token \(\mathbf{z}_t^0\)，它们分别只与对应轴的patch嵌入交互。经过 \(L=12\) 层Transformer后输出 \([\mathbf{Z}^L, \mathbf{z}_s^L, \mathbf{z}_t^L]\)，分别送入不同的头
- 设计动机：原始TimeSformer的全局CLS token混合了时空特征，不利于解耦学习；计算复杂度从 \(\mathcal{O}(T^2 \cdot N^2)\) 优化到 \(\mathcal{O}(T^2 + N^2)\)
时间头 \(h\) — 时间脆弱性回归:
- 功能：预测混合边界随时间的导数，捕获时间伪影的高变化区域
- 核心思路：将patch嵌入reshape为3D特征，经过两层3D卷积（时间核3 × 空间核1）回归标准化后的时间导数 \(\hat{\mathbf{D}} = \partial\tilde{\mathbf{B}}/\partial t\)。损失函数为MSE：\(\mathcal{L}_h = \frac{1}{T \times N}\|\hat{\mathbf{D}} - \tilde{\mathbf{D}}\|_2^2\)
- 设计动机：时间上变化剧烈的混合边界反映了时间伪影的存在，这是视频级检测的关键信号
空间头 \(g\) — 空间脆弱性预测:
- 功能：预测每帧的空间伪影强度软标签
- 核心思路：对空间token使用MLP，预测逐帧软标签 \(\tilde{\mathbf{p}} = \text{MLP}(\mathbf{z}_s^L)\)，标签 \(p(t) = \max_{l,m}(\tilde{\mathbf{B}}(t))\)。损失为BCE：\(\mathcal{L}_g = \text{BCE}(\tilde{\mathbf{p}}, \mathbf{p})\)
- 设计动机：空间伪影检测是时间伪影检测的必要补充，两者协同可全面捕获伪造痕迹

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \lambda_c \mathcal{L}_c + \lambda_h \mathcal{L}_h + \lambda_g \mathcal{L}_g\)

\(\mathcal{L}_c\)：二分类BCE损失（真/伪区分）
\(\mathcal{L}_h\)：时间脆弱性MSE回归损失
\(\mathcal{L}_g\)：空间脆弱性BCE损失
仅使用真实数据训练（伪造数据由SBV在线合成）

实验关键数据¶

主实验（跨数据集泛化 - 训练于FF++(c23)）¶

方法	训练数据	CDF(AUC%)	DFD	DFDCP	DFDC	DFW	DiffSwap
SBI	真实	90.6	-	-	72.4	-	-
AltFreezing	真+伪	89.5	98.5	-	-	-	-
Swin+TALL	真+伪	90.8	-	76.8	-	-	-
LFGDIN	真+伪	90.4	-	80.8	-	-	85.7
LAA-Net	真实	95.4	86.9	92.1	-	-	-
FakeSTormer(T=16)	真实	92.8	98.6	90.2	75.1	75.3	97.2

消融实验¶

配置	CDF(AUC%)	DFDCP	说明
基线(仅分类头+SBI)	89.2	85.3	无多任务学习
+ SBV替换SBI	91.0	88.1	SBV数据合成显著提升
+ 时间头 \(h\)	91.8	89.3	时间脆弱性回归有效
+ 空间头 \(g\)	92.4	90.0	空间脆弱性预测进一步提升
+ Cutout增强	92.8	90.2	避免过拟合特定区域
T=4 vs T=8 vs T=16	92.4/92.4/92.8	90.0/90.0/90.2	更多帧略有帮助

关键发现¶

仅使用SBV训练基线分类器即可匹敌SOTA，证明了数据合成的强大效果
时间头和空间头各自独立贡献，且它们的组合效果大于单独使用
Cutout增强在DF40等新型伪造方法的数据集上提升尤为明显
改进的TimeSformer的token解耦设计对三分支框架至关重要

亮点与洞察¶

脆弱性概念的时间域扩展：将图像级脆弱性（最可能嵌入混合伪影的像素/patch）扩展到视频级的时间脆弱性（时间上变化剧烈的混合边界），这一定义自然且有效
数据合成质量是关键：SBV的两个时间一致性模块虽简单，却是性能大幅提升的主要原因
仅用真实数据训练：避免了对特定伪造方法的过拟合，提升泛化性
即插即用设计：SBV可以应用于任何现有的视频级伪造检测方法

局限与展望¶

TimeSformer计算开销较大，视频处理速度可能成为实际部署瓶颈
SBV生成的伪造样本仍基于混合策略，可能与非混合型伪造（如纯生成式、SAM换脸等）差异较大
时间脆弱性仅用一阶导数建模，可能遗漏更高阶的时间模式
未测试在超高质量AI生成视频（如Sora、Kling等）上的效果
三个损失的权重 \(\lambda_c, \lambda_h, \lambda_g\) 需要手动调节

评分¶

新颖性: ⭐⭐⭐⭐ 脆弱性概念的时间扩展和SBV是核心贡献，但整体框架沿用了LAA-Net的思路
实验充分度: ⭐⭐⭐⭐⭐ 跨6个测试集、与15+方法对比、详尽消融、可视化分析
写作质量: ⭐⭐⭐⭐ 图表清晰，方法描述完整，但部分符号稍显冗余
价值: ⭐⭐⭐⭐⭐ 视频级伪造检测的强基线，数据合成和多任务框架设计具有广泛适用性