Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods¶
会议: CVPR 2026 arXiv: 2603.15026 代码: 有 领域: 视频检测/AI生成内容检测 关键词: 零样本检测, 生成视频检测, 似然估计, 白化变换, 时空建模
一句话总结¶
提出 STALL,一种无需训练的零样本生成视频检测器,通过在白化嵌入空间中联合建模逐帧空间似然和帧间时序似然,仅依赖真实视频校准即可实现对多种生成模型的鲁棒检测。
研究背景与动机¶
1. 领域现状:视频生成技术(Sora、Veo3 等)飞速发展,能生成高保真、长时序的逼真视频,但也带来虚假信息、欺诈等风险,可靠的生成视频检测变得至关重要。
2. 痛点: - 图像检测器:逐帧独立处理,完全忽略时序动态,无法捕捉运动不一致等跨帧伪影; - 监督式视频检测器:需要大量标注数据训练,对未见过的生成模型泛化能力差,而新模型层出不穷; - D3(唯一的零样本视频检测器):仅依赖时序线索(帧间二阶差分),忽略逐帧空间信息,且缺乏理论基础。
3. 核心矛盾:单独使用空间或时序信息都不够——空间检测器对运动伪影无感,时序检测器对逐帧视觉异常无感。需要一种联合建模两者的方法。
4. 要解决什么:设计一种零样本(无需生成样本、无需训练)、有理论基础的视频检测方法,能同时利用空间和时序证据。
5. 切入角度:高维视觉嵌入在白化后近似服从高斯分布(由 Maxwell-Poincaré 引理理论保证),因此可以用闭式对数似然作为"真实性"度量。将此思路从图像扩展到视频帧间过渡向量。
6. 核心 idea:对帧嵌入计算空间似然,对归一化帧间差分计算时序似然,两者通过百分位归一化融合为统一检测分数。生成视频在空间或时序上会偏离真实数据分布,从而被捕获。
方法详解¶
整体框架¶
STALL(Spatial-Temporal Aggregated Log-Likelihoods)由三部分组成:
- 校准阶段(离线):用一组真实视频(校准集,如 VATEX 的 33k 视频),通过视觉编码器(DINOv3)提取帧嵌入,分别计算空间白化参数 \((μ, W)\) 和时序白化参数 \((μ_Δ, W_Δ)\),并记录校准集上的似然分数分布。
- 推理阶段:对测试视频的每帧计算空间似然,对帧间归一化差分计算时序似然,分别聚合后通过百分位归一化融合。
- 判决:融合分数越低,越可能是生成视频。
关键设计¶
空间似然(Spatial Likelihood)¶
- 做什么:度量每一帧在真实图像分布中的似然。
- 核心思路:将帧嵌入 \(x_t = E(f_t)\) 白化为 \(y_t = W(x_t - μ)\),白化后协方差为单位阵、均值为零。若白化坐标近似高斯,则 \(y \sim \mathcal{N}(0, I_d)\),对数似然为 \(\ell(y) = -\frac{1}{2}(d\log(2\pi) + \|y\|_2^2)\)。
- 设计动机:先前工作(ZED 等)已验证 CLIP/DINO 嵌入白化后具有高斯性质(Anderson-Darling 和 D'Agostino-Pearson 检验通过)。本文将此扩展至视频帧嵌入,验证了 DINOv3 在视频帧上同样满足高斯假设。
时序似然(Temporal Likelihood)¶
- 做什么:度量帧间过渡的运动一致性。
- 核心思路:计算帧间差分 \(\Delta_t = x_{t+1} - x_t\),但原始差分的范数变化大、不满足高斯分布。关键创新是对差分向量做 L2 归一化:\(\tilde{\Delta}_t = \Delta_t / \|\Delta_t\|\),将方向投影到单位球面上。根据 Maxwell-Poincaré 引理,高维球面上均匀分布的向量在任意低维投影上近似高斯。归一化后再做白化 \(z_t = W_Δ(\tilde{\Delta}_t - μ_Δ)\),用同样的闭式似然计算。
- 设计动机:视频运动方向本质是任意的(无偏好方向),而范数变化大。归一化去除范数影响后,方向的均匀性保证了高斯假设成立。生成视频的运动模式不自然,对应的时序似然值会偏低。
- 边界情况:若连续帧完全相同(\(\Delta_t = 0\)),丢弃该过渡;若所有帧相同,退化为纯空间检测。
分数聚合与融合¶
- 帧级→视频级聚合:空间似然取 最大值(max),时序似然取 最小值(min)。通过相关性分析发现 max-spatial + min-temporal 相关性最低,信息最互补。
- 百分位归一化:空间和时序似然尺度不同,将测试分数转化为相对于校准集的百分位排名:\(\text{perc}(s) = \frac{1}{n}|\{i : s_i \le s\}|\)。
- 统一分数:\(s_{\text{video}} = \frac{1}{2}(\text{perc}_{\text{sp}} + \text{perc}_{\text{temp}})\)。
损失函数 / 训练策略¶
本方法完全 无需训练。校准阶段仅计算统计量(均值、协方差、白化矩阵),是纯统计估计过程。推理时也无可学习参数。唯一的"超参数"是校准集大小(实验表明 5k+ 即可稳定)和帧采样策略(默认 8 FPS、16 帧)。
实验关键数据¶
主实验¶
在三个基准上与图像检测器(AEROBLADE、RIGID、ZED)和视频检测器(D3-L2、D3-cos)零样本对比,以 AUC 为主要指标:
| 基准 | AEROBLADE | RIGID | ZED | D3 (L2) | D3 (cos) | STALL |
|---|---|---|---|---|---|---|
| VideoFeedback (11模型, avg) | 0.58 | 0.63 | 0.54 | 0.54 | 0.55 | 0.83 |
| GenVideo (10模型, avg) | 0.59 | 0.65 | 0.55 | 0.72 | 0.70 | 0.80 |
| ComGenVid (Sora+Veo3, avg) | 0.69 | 0.57 | 0.55 | 0.73 | 0.73 | 0.85 |
| 全部基准平均 | 0.62 | 0.61 | 0.57 | 0.64 | 0.64 | 0.82 |
STALL 在所有基准上平均 AUC 均最高,且是唯一一个在所有生成器上 AUC 都 > 0.5 的方法(其他方法在某些生成器上出现决策边界反转)。
与监督式检测器对比(Figure 6b),STALL 的零样本性能甚至超过了部分在测试生成器上训练过的 T2VE 和 AIGVdet。
消融实验¶
编码器消融(Table 2,GenVideo 基准):
| 编码器 | DINOv3 | MobileNet-v3 | ResNet-18 | ViCLIP-L/14 | VideoMAE |
|---|---|---|---|---|---|
| AUC | 0.81 | 0.82 | 0.79 | 0.59 | 0.61 |
- 图像编码器(即使是轻量级 MobileNet)均表现优异;视频编码器效果差,因为将整个视频压缩为单一向量丧失了逐帧/逐过渡的统计信息。
校准集大小(Figure 7a):1k~34k 变化,5k 以上结果稳定,标准差极小。
鲁棒性测试(Figure 7b):JPEG 压缩、高斯模糊、裁剪缩放、加性噪声五个等级,STALL 在所有扰动下保持高分离度。
时序消融(Figure 8):步长、视频长度、FPS 变化下均鲁棒。
关键发现¶
- 空间+时序缺一不可:单独使用任一维度都有盲区——ZED(仅空间)在时序不一致主导时失败,D3(仅时序)在空间异常主导时失败,STALL 的联合建模避免了这两种失败模式。
- 归一化是时序似然的关键:原始帧间差分不满足高斯分布,L2 归一化后才具备高斯性质,这是理论(Maxwell-Poincaré 引理)和实验共同验证的。
- 轻量高效:推理延迟仅 0.49s/视频(16帧),与最快的 D3 相当,远快于 AEROBLADE 和 AIGVdet。
- 校准集选择不敏感:不同来源(VATEX、Kinetics-400、VideoFeedback 真实数据)作为校准集效果相近。
亮点与洞察¶
- 理论驱动:不是纯经验方法,而是基于高斯似然和 Maxwell-Poincaré 引理,提供了可解释、可验证的理论框架。检测失败时可以定量诊断是空间还是时序分数出了问题。
- 极简优雅:整个方法没有可学习参数,核心就是白化+范数计算+百分位排名,实现简单但效果远超复杂的监督方法。
- 零样本泛化:对 Sora、Veo3 等最新模型无需任何适配即可检测。
- 百分位融合:避免了空间/时序似然量纲不同的问题,比直接加权平均更鲁棒。
局限性 / 可改进方向¶
- 静态视频退化:若视频帧间变化极小,时序信号缺失,退化为纯空间检测,可能漏检时序层面精心制作的生成内容。
- 校准集依赖:虽然论文称对校准集选择鲁棒,但仍需真实视频集合;极端域偏移(如医疗视频、卫星视频)下的表现未知。
- 高斯假设的局限:对于特殊结构的嵌入空间(如窄锥集中现象严重时),高斯近似精度可能下降。
- 仅检测完全生成视频:不处理局部替换/编辑(deepfake)场景,该场景需要像素级定位能力。
- 可能的自适应攻击:若攻击者了解检测机制,可以尝试让生成视频的空间/时序统计量匹配真实分布,对抗鲁棒性未深入讨论。
- 帧采样策略固定:均匀采样可能遗漏局部异常片段,自适应采样策略值得探索。
相关工作与启发¶
- ZED(图像零样本检测):本文的空间似然直接继承自 ZED 的白化+高斯似然框架,核心贡献是扩展到时序维度。
- D3(首个零样本视频检测器):依赖二阶帧间差分的经验假设,缺乏理论基础且忽略空间信息。STALL 通过一阶归一化差分+理论保证超越了 D3。
- Maxwell-Poincaré 引理:为归一化操作提供了严格的理论支撑——高维球面均匀分布投影近似高斯,这是本文时序建模的理论基石。
- 启发:零样本检测思路可迁移到其他模态(如音频生成检测、3D 生成检测),只要嵌入空间满足高斯假设。校准集仅需真实数据,门槛极低。
评分¶
⭐⭐⭐⭐ 理论优雅、实验扎实、方法极简且效果显著,是零样本生成视频检测方向的标杆工作;略扣一星因为局限于完全生成场景且对抗鲁棒性分析不足。