Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection¶
会议: ICCV 2025
arXiv: 2501.01184
代码: GitHub
领域: AI安全
关键词: 深度伪造检测, 时空学习, 数据合成, 多任务学习, 脆弱性感知
一句话总结¶
本文提出FakeSTormer,一个细粒度的生成式深度伪造视频检测框架,通过多任务学习同时建模时间和空间脆弱性区域,配合自混合视频(SBV)数据合成策略生成高质量伪造样本,仅用真实数据训练即可在多个跨数据集基准上达到SOTA泛化性能。
研究背景与动机¶
随着生成式AI的进步,深度伪造(Deepfake)视频日益逼真,对社会安全构成严重威胁。现有方法面临两大核心挑战:
泛化性不足:大多数方法依赖二分类器,在训练伪造类型上表现好但泛化到未见过的操纵方法时性能骤降。原因是单一的二分类损失使模型过拟合特定伪造痕迹。
对高质量伪造鲁棒性差:随着伪造技术进步,时空伪造痕迹越来越微弱,现有的隐式注意力机制无法可靠地捕获这些细微伪影。
图像级 vs 视频级的鸿沟:在图像级伪造检测中,多任务学习+脆弱性感知+精细数据合成已证明有效(如LAA-Net),但将其扩展到视频级并不直接——需要同时处理本质不同的时间和空间伪影,且视频级数据合成需保持时间一致性。
核心idea:将深度伪造视频检测重新定义为细粒度检测任务,通过三分支多任务框架分别学习分类、空间脆弱性和时间脆弱性,配合高质量的Self-Blended Video(SBV)数据合成,仅使用真实视频训练。
方法详解¶
整体框架¶
FakeSTormer包含三大模块: 1. SBV数据合成:将SBI扩展到视频级,生成时间一致的伪造视频和对应标注 2. 改进的TimeSformer骨干:分解空间和时间token以解耦特征学习 3. 三分支多任务头:分类头 \(f\)、时间头 \(h\)(回归时间脆弱性导数)、空间头 \(g\)(预测逐帧空间脆弱性软标签)
关键设计¶
-
Self-Blended Video(SBV)数据合成:
- 功能:从真实视频生成高质量伪造视频,提供免标注的训练信号
- 核心思路:在SBI(Self-Blended Image)基础上增加两个时间一致性模块:
- Consistent Synthesized Parameters (CSP):固定第一帧的所有混合参数 \(\theta^{(sbi)}\)(ConvexHull类型、掩码变形核、混合比例等),用于后续帧
- Landmark Interpolation (LI):当相邻帧关键点变化过大时插值平滑:\(\mathbf{l}_i(t) = \mathbf{l}_i(t-1) + \frac{\mathbf{l}_i(t) - \mathbf{l}_i(t-1)}{\text{round}(d/\bar{d})}\),用 \(\text{round}\) 引入轻微误差以保留微妙的时间伪影
- 设计动机:现有视频级数据合成(如STC、VB)引入夸张的时间失真,与真实高质量伪造不符;SBV通过保持时间一致性生成更接近真实伪造的样本
-
脆弱性驱动的Cutout数据增强:
- 功能:遮挡最易包含混合伪影的区域,防止模型过拟合特定伪影位置
- 核心思路:计算混合边界 \(\mathbf{B} = (\mathbf{1} - \mathbf{M}) * \mathbf{M} * 4\),通过MaxPooling量化patch级脆弱性值 \(\bar{\mathbf{B}}\),随机选择阈值 \(\tau_{cutout} \in (0.5, 1.0]\),遮挡超过阈值的patch(在所有帧中保持一致位置)
- 设计动机:模型容易过拟合混合边界区域,遮挡后迫使模型学习其他区域的特征
-
改进的TimeSformer骨干:
- 功能:为三分支框架提供解耦的时空特征
- 核心思路:在TimeSformer的每个维度上添加空间token \(\mathbf{z}_s^0\) 和时间token \(\mathbf{z}_t^0\),它们分别只与对应轴的patch嵌入交互。经过 \(L=12\) 层Transformer后输出 \([\mathbf{Z}^L, \mathbf{z}_s^L, \mathbf{z}_t^L]\),分别送入不同的头
- 设计动机:原始TimeSformer的全局CLS token混合了时空特征,不利于解耦学习;计算复杂度从 \(\mathcal{O}(T^2 \cdot N^2)\) 优化到 \(\mathcal{O}(T^2 + N^2)\)
-
时间头 \(h\) — 时间脆弱性回归:
- 功能:预测混合边界随时间的导数,捕获时间伪影的高变化区域
- 核心思路:将patch嵌入reshape为3D特征,经过两层3D卷积(时间核3 × 空间核1)回归标准化后的时间导数 \(\hat{\mathbf{D}} = \partial\tilde{\mathbf{B}}/\partial t\)。损失函数为MSE:\(\mathcal{L}_h = \frac{1}{T \times N}\|\hat{\mathbf{D}} - \tilde{\mathbf{D}}\|_2^2\)
- 设计动机:时间上变化剧烈的混合边界反映了时间伪影的存在,这是视频级检测的关键信号
-
空间头 \(g\) — 空间脆弱性预测:
- 功能:预测每帧的空间伪影强度软标签
- 核心思路:对空间token使用MLP,预测逐帧软标签 \(\tilde{\mathbf{p}} = \text{MLP}(\mathbf{z}_s^L)\),标签 \(p(t) = \max_{l,m}(\tilde{\mathbf{B}}(t))\)。损失为BCE:\(\mathcal{L}_g = \text{BCE}(\tilde{\mathbf{p}}, \mathbf{p})\)
- 设计动机:空间伪影检测是时间伪影检测的必要补充,两者协同可全面捕获伪造痕迹
损失函数 / 训练策略¶
总损失:\(\mathcal{L} = \lambda_c \mathcal{L}_c + \lambda_h \mathcal{L}_h + \lambda_g \mathcal{L}_g\)
- \(\mathcal{L}_c\):二分类BCE损失(真/伪区分)
- \(\mathcal{L}_h\):时间脆弱性MSE回归损失
- \(\mathcal{L}_g\):空间脆弱性BCE损失
- 仅使用真实数据训练(伪造数据由SBV在线合成)
实验关键数据¶
主实验(跨数据集泛化 - 训练于FF++(c23))¶
| 方法 | 训练数据 | CDF(AUC%) | DFD | DFDCP | DFDC | DFW | DiffSwap |
|---|---|---|---|---|---|---|---|
| SBI | 真实 | 90.6 | - | - | 72.4 | - | - |
| AltFreezing | 真+伪 | 89.5 | 98.5 | - | - | - | - |
| Swin+TALL | 真+伪 | 90.8 | - | 76.8 | - | - | - |
| LFGDIN | 真+伪 | 90.4 | - | 80.8 | - | - | 85.7 |
| LAA-Net | 真实 | 95.4 | 86.9 | 92.1 | - | - | - |
| FakeSTormer(T=16) | 真实 | 92.8 | 98.6 | 90.2 | 75.1 | 75.3 | 97.2 |
消融实验¶
| 配置 | CDF(AUC%) | DFDCP | 说明 |
|---|---|---|---|
| 基线(仅分类头+SBI) | 89.2 | 85.3 | 无多任务学习 |
| + SBV替换SBI | 91.0 | 88.1 | SBV数据合成显著提升 |
| + 时间头 \(h\) | 91.8 | 89.3 | 时间脆弱性回归有效 |
| + 空间头 \(g\) | 92.4 | 90.0 | 空间脆弱性预测进一步提升 |
| + Cutout增强 | 92.8 | 90.2 | 避免过拟合特定区域 |
| T=4 vs T=8 vs T=16 | 92.4/92.4/92.8 | 90.0/90.0/90.2 | 更多帧略有帮助 |
关键发现¶
- 仅使用SBV训练基线分类器即可匹敌SOTA,证明了数据合成的强大效果
- 时间头和空间头各自独立贡献,且它们的组合效果大于单独使用
- Cutout增强在DF40等新型伪造方法的数据集上提升尤为明显
- 改进的TimeSformer的token解耦设计对三分支框架至关重要
亮点与洞察¶
- 脆弱性概念的时间域扩展:将图像级脆弱性(最可能嵌入混合伪影的像素/patch)扩展到视频级的时间脆弱性(时间上变化剧烈的混合边界),这一定义自然且有效
- 数据合成质量是关键:SBV的两个时间一致性模块虽简单,却是性能大幅提升的主要原因
- 仅用真实数据训练:避免了对特定伪造方法的过拟合,提升泛化性
- 即插即用设计:SBV可以应用于任何现有的视频级伪造检测方法
局限与展望¶
- TimeSformer计算开销较大,视频处理速度可能成为实际部署瓶颈
- SBV生成的伪造样本仍基于混合策略,可能与非混合型伪造(如纯生成式、SAM换脸等)差异较大
- 时间脆弱性仅用一阶导数建模,可能遗漏更高阶的时间模式
- 未测试在超高质量AI生成视频(如Sora、Kling等)上的效果
- 三个损失的权重 \(\lambda_c, \lambda_h, \lambda_g\) 需要手动调节
相关工作与启发¶
- 从图像级LAA-Net到视频级FakeSTormer的扩展路径清晰,为其他图像级方法的视频化提供了范式
- 脆弱性驱动的注意力机制可能扩展到其他视觉异常检测任务
- SBV的时间平滑+轻微误差保留思路对其他视频增强任务有参考价值
- 多分支框架中token解耦的设计思路可借鉴到其他多任务视频理解任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 脆弱性概念的时间扩展和SBV是核心贡献,但整体框架沿用了LAA-Net的思路
- 实验充分度: ⭐⭐⭐⭐⭐ 跨6个测试集、与15+方法对比、详尽消融、可视化分析
- 写作质量: ⭐⭐⭐⭐ 图表清晰,方法描述完整,但部分符号稍显冗余
- 价值: ⭐⭐⭐⭐⭐ 视频级伪造检测的强基线,数据合成和多任务框架设计具有广泛适用性
相关论文¶
- [ICLR 2026] Veritas: Generalizable Deepfake Detection via Pattern-Aware Reasoning
- [ICCV 2025] Client2Vec: Improving Federated Learning by Distribution Shifts Aware Client Indexing
- [ICCV 2025] Active Membership Inference Test (aMINT): Enhancing Model Auditability with Multi-Task Learning
- [CVPR 2026] Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection
- [NeurIPS 2025] Environment Inference for Learning Generalizable Dynamical System