Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods¶

会议: CVPR 2026 arXiv: 2603.15026 代码: 有领域: 视频检测/AI生成内容检测 关键词: 零样本检测, 生成视频检测, 似然估计, 白化变换, 时空建模

一句话总结¶

提出 STALL，一种无需训练的零样本生成视频检测器，通过在白化嵌入空间中联合建模逐帧空间似然和帧间时序似然，仅依赖真实视频校准即可实现对多种生成模型的鲁棒检测。

研究背景与动机¶

1. 领域现状：视频生成技术（Sora、Veo3 等）飞速发展，能生成高保真、长时序的逼真视频，但也带来虚假信息、欺诈等风险，可靠的生成视频检测变得至关重要。

2. 痛点： - 图像检测器：逐帧独立处理，完全忽略时序动态，无法捕捉运动不一致等跨帧伪影； - 监督式视频检测器：需要大量标注数据训练，对未见过的生成模型泛化能力差，而新模型层出不穷； - D3（唯一的零样本视频检测器）：仅依赖时序线索（帧间二阶差分），忽略逐帧空间信息，且缺乏理论基础。

3. 核心矛盾：单独使用空间或时序信息都不够——空间检测器对运动伪影无感，时序检测器对逐帧视觉异常无感。需要一种联合建模两者的方法。

4. 要解决什么：设计一种零样本（无需生成样本、无需训练）、有理论基础的视频检测方法，能同时利用空间和时序证据。

5. 切入角度：高维视觉嵌入在白化后近似服从高斯分布（由 Maxwell-Poincaré 引理理论保证），因此可以用闭式对数似然作为"真实性"度量。将此思路从图像扩展到视频帧间过渡向量。

6. 核心 idea：对帧嵌入计算空间似然，对归一化帧间差分计算时序似然，两者通过百分位归一化融合为统一检测分数。生成视频在空间或时序上会偏离真实数据分布，从而被捕获。

方法详解¶

整体框架¶

STALL（Spatial-Temporal Aggregated Log-Likelihoods）由三部分组成：

校准阶段（离线）：用一组真实视频（校准集，如 VATEX 的 33k 视频），通过视觉编码器（DINOv3）提取帧嵌入，分别计算空间白化参数 \((μ, W)\) 和时序白化参数 \((μ_Δ, W_Δ)\)，并记录校准集上的似然分数分布。
推理阶段：对测试视频的每帧计算空间似然，对帧间归一化差分计算时序似然，分别聚合后通过百分位归一化融合。
判决：融合分数越低，越可能是生成视频。

关键设计¶

空间似然（Spatial Likelihood）¶

做什么：度量每一帧在真实图像分布中的似然。
核心思路：将帧嵌入 \(x_t = E(f_t)\) 白化为 \(y_t = W(x_t - μ)\)，白化后协方差为单位阵、均值为零。若白化坐标近似高斯，则 \(y \sim \mathcal{N}(0, I_d)\)，对数似然为 \(\ell(y) = -\frac{1}{2}(d\log(2\pi) + \|y\|_2^2)\)。
设计动机：先前工作（ZED 等）已验证 CLIP/DINO 嵌入白化后具有高斯性质（Anderson-Darling 和 D'Agostino-Pearson 检验通过）。本文将此扩展至视频帧嵌入，验证了 DINOv3 在视频帧上同样满足高斯假设。

时序似然（Temporal Likelihood）¶

做什么：度量帧间过渡的运动一致性。
核心思路：计算帧间差分 \(\Delta_t = x_{t+1} - x_t\)，但原始差分的范数变化大、不满足高斯分布。关键创新是对差分向量做 L2 归一化：\(\tilde{\Delta}_t = \Delta_t / \|\Delta_t\|\)，将方向投影到单位球面上。根据 Maxwell-Poincaré 引理，高维球面上均匀分布的向量在任意低维投影上近似高斯。归一化后再做白化 \(z_t = W_Δ(\tilde{\Delta}_t - μ_Δ)\)，用同样的闭式似然计算。
设计动机：视频运动方向本质是任意的（无偏好方向），而范数变化大。归一化去除范数影响后，方向的均匀性保证了高斯假设成立。生成视频的运动模式不自然，对应的时序似然值会偏低。
边界情况：若连续帧完全相同（\(\Delta_t = 0\)），丢弃该过渡；若所有帧相同，退化为纯空间检测。

分数聚合与融合¶

帧级→视频级聚合：空间似然取 最大值（max），时序似然取 最小值（min）。通过相关性分析发现 max-spatial + min-temporal 相关性最低，信息最互补。
百分位归一化：空间和时序似然尺度不同，将测试分数转化为相对于校准集的百分位排名：\(\text{perc}(s) = \frac{1}{n}|\{i : s_i \le s\}|\)。
统一分数：\(s_{\text{video}} = \frac{1}{2}(\text{perc}_{\text{sp}} + \text{perc}_{\text{temp}})\)。

损失函数 / 训练策略¶

本方法完全 无需训练。校准阶段仅计算统计量（均值、协方差、白化矩阵），是纯统计估计过程。推理时也无可学习参数。唯一的"超参数"是校准集大小（实验表明 5k+ 即可稳定）和帧采样策略（默认 8 FPS、16 帧）。

实验关键数据¶

主实验¶

在三个基准上与图像检测器（AEROBLADE、RIGID、ZED）和视频检测器（D3-L2、D3-cos）零样本对比，以 AUC 为主要指标：

基准	AEROBLADE	RIGID	ZED	D3 (L2)	D3 (cos)	STALL
VideoFeedback (11模型, avg)	0.58	0.63	0.54	0.54	0.55	0.83
GenVideo (10模型, avg)	0.59	0.65	0.55	0.72	0.70	0.80
ComGenVid (Sora+Veo3, avg)	0.69	0.57	0.55	0.73	0.73	0.85
全部基准平均	0.62	0.61	0.57	0.64	0.64	0.82

STALL 在所有基准上平均 AUC 均最高，且是唯一一个在所有生成器上 AUC 都 > 0.5 的方法（其他方法在某些生成器上出现决策边界反转）。

与监督式检测器对比（Figure 6b），STALL 的零样本性能甚至超过了部分在测试生成器上训练过的 T2VE 和 AIGVdet。

消融实验¶

编码器消融（Table 2，GenVideo 基准）：

编码器	DINOv3	MobileNet-v3	ResNet-18	ViCLIP-L/14	VideoMAE
AUC	0.81	0.82	0.79	0.59	0.61

图像编码器（即使是轻量级 MobileNet）均表现优异；视频编码器效果差，因为将整个视频压缩为单一向量丧失了逐帧/逐过渡的统计信息。

校准集大小（Figure 7a）：1k~34k 变化，5k 以上结果稳定，标准差极小。

鲁棒性测试（Figure 7b）：JPEG 压缩、高斯模糊、裁剪缩放、加性噪声五个等级，STALL 在所有扰动下保持高分离度。

时序消融（Figure 8）：步长、视频长度、FPS 变化下均鲁棒。

关键发现¶

空间+时序缺一不可：单独使用任一维度都有盲区——ZED（仅空间）在时序不一致主导时失败，D3（仅时序）在空间异常主导时失败，STALL 的联合建模避免了这两种失败模式。
归一化是时序似然的关键：原始帧间差分不满足高斯分布，L2 归一化后才具备高斯性质，这是理论（Maxwell-Poincaré 引理）和实验共同验证的。
轻量高效：推理延迟仅 0.49s/视频（16帧），与最快的 D3 相当，远快于 AEROBLADE 和 AIGVdet。
校准集选择不敏感：不同来源（VATEX、Kinetics-400、VideoFeedback 真实数据）作为校准集效果相近。

亮点与洞察¶

理论驱动：不是纯经验方法，而是基于高斯似然和 Maxwell-Poincaré 引理，提供了可解释、可验证的理论框架。检测失败时可以定量诊断是空间还是时序分数出了问题。
极简优雅：整个方法没有可学习参数，核心就是白化+范数计算+百分位排名，实现简单但效果远超复杂的监督方法。
零样本泛化：对 Sora、Veo3 等最新模型无需任何适配即可检测。
百分位融合：避免了空间/时序似然量纲不同的问题，比直接加权平均更鲁棒。

局限性 / 可改进方向¶

静态视频退化：若视频帧间变化极小，时序信号缺失，退化为纯空间检测，可能漏检时序层面精心制作的生成内容。
校准集依赖：虽然论文称对校准集选择鲁棒，但仍需真实视频集合；极端域偏移（如医疗视频、卫星视频）下的表现未知。
高斯假设的局限：对于特殊结构的嵌入空间（如窄锥集中现象严重时），高斯近似精度可能下降。
仅检测完全生成视频：不处理局部替换/编辑（deepfake）场景，该场景需要像素级定位能力。
可能的自适应攻击：若攻击者了解检测机制，可以尝试让生成视频的空间/时序统计量匹配真实分布，对抗鲁棒性未深入讨论。
帧采样策略固定：均匀采样可能遗漏局部异常片段，自适应采样策略值得探索。

评分¶

⭐⭐⭐⭐ 理论优雅、实验扎实、方法极简且效果显著，是零样本生成视频检测方向的标杆工作；略扣一星因为局限于完全生成场景且对抗鲁棒性分析不足。