跳转至

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

会议: CVPR 2026 arXiv: 2603.15026 代码: 有 领域: 视频检测/AI生成内容检测 关键词: 零样本检测, 生成视频检测, 似然估计, 白化变换, 时空建模

一句话总结

提出 STALL,一种无需训练的零样本生成视频检测器,通过在白化嵌入空间中联合建模逐帧空间似然和帧间时序似然,仅依赖真实视频校准即可实现对多种生成模型的鲁棒检测。

研究背景与动机

1. 领域现状:视频生成技术(Sora、Veo3 等)飞速发展,能生成高保真、长时序的逼真视频,但也带来虚假信息、欺诈等风险,可靠的生成视频检测变得至关重要。

2. 痛点: - 图像检测器:逐帧独立处理,完全忽略时序动态,无法捕捉运动不一致等跨帧伪影; - 监督式视频检测器:需要大量标注数据训练,对未见过的生成模型泛化能力差,而新模型层出不穷; - D3(唯一的零样本视频检测器):仅依赖时序线索(帧间二阶差分),忽略逐帧空间信息,且缺乏理论基础。

3. 核心矛盾:单独使用空间或时序信息都不够——空间检测器对运动伪影无感,时序检测器对逐帧视觉异常无感。需要一种联合建模两者的方法。

4. 要解决什么:设计一种零样本(无需生成样本、无需训练)、有理论基础的视频检测方法,能同时利用空间和时序证据。

5. 切入角度:高维视觉嵌入在白化后近似服从高斯分布(由 Maxwell-Poincaré 引理理论保证),因此可以用闭式对数似然作为"真实性"度量。将此思路从图像扩展到视频帧间过渡向量。

6. 核心 idea:对帧嵌入计算空间似然,对归一化帧间差分计算时序似然,两者通过百分位归一化融合为统一检测分数。生成视频在空间或时序上会偏离真实数据分布,从而被捕获。

方法详解

整体框架

STALL(Spatial-Temporal Aggregated Log-Likelihoods)由三部分组成:

  1. 校准阶段(离线):用一组真实视频(校准集,如 VATEX 的 33k 视频),通过视觉编码器(DINOv3)提取帧嵌入,分别计算空间白化参数 \((μ, W)\) 和时序白化参数 \((μ_Δ, W_Δ)\),并记录校准集上的似然分数分布。
  2. 推理阶段:对测试视频的每帧计算空间似然,对帧间归一化差分计算时序似然,分别聚合后通过百分位归一化融合。
  3. 判决:融合分数越低,越可能是生成视频。

关键设计

空间似然(Spatial Likelihood)

  • 做什么:度量每一帧在真实图像分布中的似然。
  • 核心思路:将帧嵌入 \(x_t = E(f_t)\) 白化为 \(y_t = W(x_t - μ)\),白化后协方差为单位阵、均值为零。若白化坐标近似高斯,则 \(y \sim \mathcal{N}(0, I_d)\),对数似然为 \(\ell(y) = -\frac{1}{2}(d\log(2\pi) + \|y\|_2^2)\)
  • 设计动机:先前工作(ZED 等)已验证 CLIP/DINO 嵌入白化后具有高斯性质(Anderson-Darling 和 D'Agostino-Pearson 检验通过)。本文将此扩展至视频帧嵌入,验证了 DINOv3 在视频帧上同样满足高斯假设。

时序似然(Temporal Likelihood)

  • 做什么:度量帧间过渡的运动一致性。
  • 核心思路:计算帧间差分 \(\Delta_t = x_{t+1} - x_t\),但原始差分的范数变化大、不满足高斯分布。关键创新是对差分向量做 L2 归一化:\(\tilde{\Delta}_t = \Delta_t / \|\Delta_t\|\),将方向投影到单位球面上。根据 Maxwell-Poincaré 引理,高维球面上均匀分布的向量在任意低维投影上近似高斯。归一化后再做白化 \(z_t = W_Δ(\tilde{\Delta}_t - μ_Δ)\),用同样的闭式似然计算。
  • 设计动机:视频运动方向本质是任意的(无偏好方向),而范数变化大。归一化去除范数影响后,方向的均匀性保证了高斯假设成立。生成视频的运动模式不自然,对应的时序似然值会偏低。
  • 边界情况:若连续帧完全相同(\(\Delta_t = 0\)),丢弃该过渡;若所有帧相同,退化为纯空间检测。

分数聚合与融合

  • 帧级→视频级聚合:空间似然取 最大值(max),时序似然取 最小值(min)。通过相关性分析发现 max-spatial + min-temporal 相关性最低,信息最互补。
  • 百分位归一化:空间和时序似然尺度不同,将测试分数转化为相对于校准集的百分位排名:\(\text{perc}(s) = \frac{1}{n}|\{i : s_i \le s\}|\)
  • 统一分数\(s_{\text{video}} = \frac{1}{2}(\text{perc}_{\text{sp}} + \text{perc}_{\text{temp}})\)

损失函数 / 训练策略

本方法完全 无需训练。校准阶段仅计算统计量(均值、协方差、白化矩阵),是纯统计估计过程。推理时也无可学习参数。唯一的"超参数"是校准集大小(实验表明 5k+ 即可稳定)和帧采样策略(默认 8 FPS、16 帧)。

实验关键数据

主实验

在三个基准上与图像检测器(AEROBLADE、RIGID、ZED)和视频检测器(D3-L2、D3-cos)零样本对比,以 AUC 为主要指标:

基准 AEROBLADE RIGID ZED D3 (L2) D3 (cos) STALL
VideoFeedback (11模型, avg) 0.58 0.63 0.54 0.54 0.55 0.83
GenVideo (10模型, avg) 0.59 0.65 0.55 0.72 0.70 0.80
ComGenVid (Sora+Veo3, avg) 0.69 0.57 0.55 0.73 0.73 0.85
全部基准平均 0.62 0.61 0.57 0.64 0.64 0.82

STALL 在所有基准上平均 AUC 均最高,且是唯一一个在所有生成器上 AUC 都 > 0.5 的方法(其他方法在某些生成器上出现决策边界反转)。

与监督式检测器对比(Figure 6b),STALL 的零样本性能甚至超过了部分在测试生成器上训练过的 T2VE 和 AIGVdet。

消融实验

编码器消融(Table 2,GenVideo 基准):

编码器 DINOv3 MobileNet-v3 ResNet-18 ViCLIP-L/14 VideoMAE
AUC 0.81 0.82 0.79 0.59 0.61
  • 图像编码器(即使是轻量级 MobileNet)均表现优异;视频编码器效果差,因为将整个视频压缩为单一向量丧失了逐帧/逐过渡的统计信息。

校准集大小(Figure 7a):1k~34k 变化,5k 以上结果稳定,标准差极小。

鲁棒性测试(Figure 7b):JPEG 压缩、高斯模糊、裁剪缩放、加性噪声五个等级,STALL 在所有扰动下保持高分离度。

时序消融(Figure 8):步长、视频长度、FPS 变化下均鲁棒。

关键发现

  1. 空间+时序缺一不可:单独使用任一维度都有盲区——ZED(仅空间)在时序不一致主导时失败,D3(仅时序)在空间异常主导时失败,STALL 的联合建模避免了这两种失败模式。
  2. 归一化是时序似然的关键:原始帧间差分不满足高斯分布,L2 归一化后才具备高斯性质,这是理论(Maxwell-Poincaré 引理)和实验共同验证的。
  3. 轻量高效:推理延迟仅 0.49s/视频(16帧),与最快的 D3 相当,远快于 AEROBLADE 和 AIGVdet。
  4. 校准集选择不敏感:不同来源(VATEX、Kinetics-400、VideoFeedback 真实数据)作为校准集效果相近。

亮点与洞察

  • 理论驱动:不是纯经验方法,而是基于高斯似然和 Maxwell-Poincaré 引理,提供了可解释、可验证的理论框架。检测失败时可以定量诊断是空间还是时序分数出了问题。
  • 极简优雅:整个方法没有可学习参数,核心就是白化+范数计算+百分位排名,实现简单但效果远超复杂的监督方法。
  • 零样本泛化:对 Sora、Veo3 等最新模型无需任何适配即可检测。
  • 百分位融合:避免了空间/时序似然量纲不同的问题,比直接加权平均更鲁棒。

局限性 / 可改进方向

  1. 静态视频退化:若视频帧间变化极小,时序信号缺失,退化为纯空间检测,可能漏检时序层面精心制作的生成内容。
  2. 校准集依赖:虽然论文称对校准集选择鲁棒,但仍需真实视频集合;极端域偏移(如医疗视频、卫星视频)下的表现未知。
  3. 高斯假设的局限:对于特殊结构的嵌入空间(如窄锥集中现象严重时),高斯近似精度可能下降。
  4. 仅检测完全生成视频:不处理局部替换/编辑(deepfake)场景,该场景需要像素级定位能力。
  5. 可能的自适应攻击:若攻击者了解检测机制,可以尝试让生成视频的空间/时序统计量匹配真实分布,对抗鲁棒性未深入讨论。
  6. 帧采样策略固定:均匀采样可能遗漏局部异常片段,自适应采样策略值得探索。

相关工作与启发

  • ZED(图像零样本检测):本文的空间似然直接继承自 ZED 的白化+高斯似然框架,核心贡献是扩展到时序维度。
  • D3(首个零样本视频检测器):依赖二阶帧间差分的经验假设,缺乏理论基础且忽略空间信息。STALL 通过一阶归一化差分+理论保证超越了 D3。
  • Maxwell-Poincaré 引理:为归一化操作提供了严格的理论支撑——高维球面均匀分布投影近似高斯,这是本文时序建模的理论基石。
  • 启发:零样本检测思路可迁移到其他模态(如音频生成检测、3D 生成检测),只要嵌入空间满足高斯假设。校准集仅需真实数据,门槛极低。

评分

⭐⭐⭐⭐ 理论优雅、实验扎实、方法极简且效果显著,是零样本生成视频检测方向的标杆工作;略扣一星因为局限于完全生成场景且对抗鲁棒性分析不足。