Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection¶
会议: NeurIPS 2025
arXiv: 2510.08073
作者: Shuhai Zhang, Zihao Lian, Jiahao Yang, Daiyuan Li (SCUT), Guoxuan Pang (USTC), Feng Liu (U Melbourne), Bo Han (HKBU), Shutao Li (HNU), Mingkui Tan (SCUT)
代码: ZSHsh98/NSG-VD
领域: image_generation
关键词: AI生成视频检测, 概率流守恒, 归一化时空梯度, 扩散模型, MMD
一句话总结¶
提出基于物理守恒定律的AI生成视频检测范式,定义归一化时空梯度(NSG)统计量来捕获空间概率梯度与时间密度变化的比率,利用预训练扩散模型估计NSG并通过MMD进行检测,在Recall上超越SOTA 16%、F1超越10.75%。
研究背景与动机¶
问题背景¶
AI视频生成技术(如Sora)已达到近乎完美的视觉真实感,检测AI生成视频成为维护数字媒体信任的紧迫需求。核心挑战在于:(1) 视频包含复杂的空间纹理结构和时间运动轨迹,需要联合建模框架;(2) AI生成视频在视觉外观和时间演化上的差异越来越细微。
已有工作的不足¶
- 基于伪影的方法(光流建模、外观一致性分析)依赖特定生成器的伪影特征,对Sora等高质量生成模型失效
- DeMamba在HotShot上仅40.60% Recall,Sora上仅48.21% Recall
- STIL在关键场景完全崩溃(HotShot 1.40% Recall,Sora 1.79% Recall)
- TALL在Sora上仅25.00% Recall
- 现有方法忽略了自然视频固有的物理约束驱动的时空演化规律
核心动机¶
自然视频天然遵循运动连贯性、纹理连续性等物理定律,而AI生成视频常表现出违反物理规律的系统性不一致。本文提出:能否通过物理守恒定律来建模自然视频的内在时空动力学,从而暴露合成异常?
方法详解¶
概率流速度场建模¶
将视频演化建模为类流体力学过程。定义概率流密度 \(\mathbf{J}(\mathbf{x},t) = p(\mathbf{x},t) \cdot \mathbf{v}(\mathbf{x},t)\),其中 \(p(\mathbf{x},t)\) 为概率密度,\(\mathbf{v}(\mathbf{x},t)\) 为引导概率质量流动的速度场。概率质量守恒隐含连续性方程:
将 \(\mathbf{J}\) 代入并取对数,利用不可压缩流近似(散度项 \(\nabla_\mathbf{x} \cdot \mathbf{v}\) 为次主项),得到:
归一化时空梯度(NSG)¶
由于速度场 \(\mathbf{v}\) 的解不唯一,定义其对偶场——归一化时空梯度:
其中 \(\lambda > 0\) 防止数值不稳定。NSG满足 \(\mathbf{v} \cdot \mathbf{g} \approx 1\),绕过了 \(\mathbf{v}\) 求逆的病态问题,同时保留时空梯度动力学的关键信息。
物理含义:NSG量化每单位时间变化的概率流方向灵敏度,同时捕获空间不规则性(通过 \(\nabla_\mathbf{x} \log p\))和时间不一致性(通过 \(\partial_t \log p\))。
基于扩散模型的NSG估计¶
利用预训练扩散模型的梯度估计能力:
- 空间梯度:直接用扩散模型的score网络 \(\mathbf{s}_\theta\) 近似 \(\nabla_\mathbf{x} \log p(\mathbf{x},t) \approx \mathbf{s}_\theta(\mathbf{x}_t)\)
- 时间导数:基于亮度恒常假设(光流约束),\(\partial_t \log p(\mathbf{x},t) \approx -\nabla_\mathbf{x} \log p(\mathbf{x},t) \cdot \frac{\Delta\mathbf{x}}{\Delta t}\)
最终NSG估计器:
无需显式光流计算,仅需扩散模型单次前向传播加帧差即可。
NSG-VD检测方法¶
- 汇聚视频所有帧的NSG特征 \(\mathbf{G}(\mathbf{x}) = \{\mathbf{g}(\mathbf{x},t)\}_{t=1}^T\)
- 用深度核MMD计算测试视频NSG与参考真实视频集NSG的分布差异
- 设阈值 \(\tau\) 判决:\(\widehat{\text{MMD}}_b^2 > \tau\) 则判为Fake
核心深度核采用可学习特征映射 \(\phi_\mathbf{G}\) 与高斯核的组合,通过多群体感知优化(MPP)最大化检测能力。
理论保证¶
假设真实视频 \(\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \sigma(t)^2\mathbf{I}_d)\),生成视频 \(\mathbf{y} \sim \mathcal{N}(\boldsymbol{\mu}, \sigma(t)^2\mathbf{I}_d)\),证明NSG特征距离上界随分布偏移 \(\varphi = \|\boldsymbol{\mu}\|^2/\sigma(t)^2\) 增大而增大。这保证了真实视频间MMD小于真实与生成视频间MMD,奠定NSG-VD的理论基础。
实验关键数据¶
实验1:标准评估(Pika训练)¶
在GenVideo基准上,用Kinetics-400(真实)+ Pika(生成)各10,000视频训练。
| 方法 | Avg Recall | Avg Accuracy | Avg F1 | Avg AUROC |
|---|---|---|---|---|
| DeMamba | 72.02 | 84.21 | 80.12 | 93.88 |
| NPR | 57.35 | 77.96 | 68.39 | 93.02 |
| TALL | 60.78 | 79.85 | 72.63 | 95.67 |
| STIL | 27.02 | 63.51 | 35.82 | 93.49 |
| NSG-VD | 88.02 | 91.46 | 90.87 | 96.14 |
关键对比:在Sora上NSG-VD达78.57% Recall(DeMamba 48.21%),HotShot上92.50%(DeMamba 40.60%)。
实验2:数据不平衡场景¶
仅用1,000生成视频(SEINE)+ 10,000真实视频训练——模拟实际中生成样本稀缺。
| 方法 | Avg Recall | Avg Accuracy | Avg F1 | Avg AUROC |
|---|---|---|---|---|
| DeMamba | 64.09 | 81.60 | 76.44 | 94.85 |
| NPR | 32.71 | 66.09 | 46.54 | 87.10 |
| TALL | 36.08 | 67.95 | 51.40 | 91.96 |
| STIL | 46.78 | 73.21 | 61.43 | 90.20 |
| NSG-VD | 93.21 | 89.16 | 89.48 | 94.91 |
NSG-VD在仅1/10生成训练数据下,Recall仍达93.21%,超DeMamba 29.12%,在Sora上82.14%(DeMamba 33.93%)。
消融:空间梯度 vs 时间导数¶
| 组件 | Recall | Accuracy | F1 | AUROC |
|---|---|---|---|---|
| 仅空间梯度 | 87.99 | 82.84 | 83.40 | 91.85 |
| 仅时间导数 | 60.35 | 71.09 | 66.97 | 78.95 |
| NSG-VD(两者结合) | 88.02 | 91.46 | 90.87 | 96.14 |
空间梯度是主要贡献者,但时间导数与其结合后F1从83.40%提升至90.87%(+7.47%),验证了物理守恒原理下二者协同的必要性。
亮点¶
- 物理驱动的新范式:首次将概率流守恒定律引入AI生成视频检测,通过NSG统计量建模自然视频的内在时空动力学,而非依赖特定伪影
- 优雅的估计器设计:利用扩散模型score函数估计空间梯度+亮度恒常约束估计时间导数,避免复杂光流计算,仅需单次前向传播
- 强泛化性:在10种不同生成器(含闭源Sora)上均显著优于SOTA,尤其在数据不平衡(1/10生成数据)下仍保持93%+ Recall
- 理论支撑完备:严格证明真实/生成视频NSG特征距离与分布偏移的定量关系,为检测有效性提供理论保证
- 阈值鲁棒:\(\tau \in [0.7, 1.1]\) 范围内性能稳定,无需精细调参
局限与展望¶
- 高斯分布假设:理论分析(Theorem 1)基于高斯分布假设,实际视频分布远比高斯复杂,理论上界可能不够紧
- 不可压缩流近似:散度项的忽略是启发式的,对快速场景切换或剧烈运动可能不成立
- 扩散模型依赖:需要预训练扩散模型作为score估计器,计算开销较传统方法大
- 亮度恒常假设:光照剧变、遮挡等场景下该假设可能失效,影响时间导数估计
- 参考集依赖:检测需要维护真实视频参考集,实际部署时参考集的选择和规模会影响性能
- Accuracy略低于Recall:在SEINE训练设定下Accuracy (86.05%) 低于部分baseline的Accuracy,存在一定误报
与相关工作的对比¶
- DeMamba (Chen et al., 2024):基于Mamba的时空关系建模,依赖大规模监督训练,对未见生成器泛化不足(Sora 48.21% Recall vs NSG-VD 78.57%)
- TALL (Xu et al., 2023):通过缩略图布局进行时空建模,但在闭源模型上表现不稳定(Sora 25.00% Recall)
- STIL (Gu et al., 2021):分别建模空间和时间不一致性,但在新型生成器上完全崩溃(HotShot 1.40% Recall)
- NPR (Tan et al., 2024):基于CNN上采样操作的深度伪造检测,性能波动大(Accuracy 57.20%~98.20%)
- DIRE (Wang et al., 2023):利用扩散模型重建误差检测生成图像,但未涉及时空动力学建模
- Score-based检测 (Song et al., 2025; Zhang et al., 2024):用score统计量检测AI生成文本/图像,本文将其扩展到视频域并引入物理约束
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次将流体力学概率流守恒引入视频检测,NSG统计量的定义优雅而具物理直觉
- 实验充分度: ⭐⭐⭐⭐ — 10种生成器、3种训练设定、消融全面,但缺少更多backbone和不同扩散模型的消融
- 写作质量: ⭐⭐⭐⭐⭐ — 从物理建模到统计量定义到估计器推导到理论保证,逻辑链完整流畅
- 价值: ⭐⭐⭐⭐⭐ — 为AI生成视频检测开辟了物理驱动的新方向,实际性能提升显著
相关论文¶
- [NeurIPS 2025] Epistemic Uncertainty for Generated Image Detection
- [CVPR 2025] Where's the Liability in the Generative Era? Recovery-Based Black-Box Detection of AI-Generated Content
- [NeurIPS 2025] Is Artificial Intelligence Generated Image Detection a Solved Problem?
- [NeurIPS 2025] UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
- [AAAI 2026] Aggregating Diverse Cue Experts for AI-Generated Image Detection