AI-Generated Video Detection via Perceptual Straightening¶

会议: NeurIPS 2025
arXiv: 2507.00583
代码: GitHub
领域: AI安全 / 视频检测 / 表示学习
关键词: AI-generated video detection, perceptual straightening, DINOv2, temporal curvature, representation geometry

一句话总结¶

提出 ReStraV 方法，基于"感知拉直"假说（真实视频在神经表示空间形成更直的轨迹），利用 DINOv2 特征空间中的时间曲率和步距统计量训练轻量分类器检测 AI 生成视频，在 VidProM 上达到 97.17% 准确率和 98.63% AUROC，推理仅需 ~48ms。

研究背景与动机¶

领域现状：AI 视频生成（Sora、Pika、VideoCrafter 等）快速发展，生成内容日益逼真，检测需求迫切。现有检测方法包括基于图像的（CNNSpot、UnivFD）和基于视频的（I3D、SlowFast、VideoSwin），但前者忽略时间信息，后者需要大量训练且泛化差。
现有痛点：(a) 图像级检测器无法捕获时间不一致性；(b) 视频级检测器需要针对特定生成器大量训练，在新生成器上泛化差；(c) 水印方案依赖生成者配合且可被规避。
核心矛盾：需要一种不依赖特定生成器伪影、能捕获时间维度异常的通用检测方法。
本文要解决什么？
是否存在真实视频 vs AI 视频在神经表示空间的本质几何差异？
能否用这种差异做高效、通用的检测？
切入角度：受神经科学"感知拉直"假说启发——视觉系统将真实视频的时间轨迹"拉直"以便预测编码。假设预训练视觉模型（DINOv2）对真实视频做选择性拉直但不拉直 AI 视频，产生可区分的曲率差异。
核心 idea 一句话：真实视频在 DINOv2 表示空间中轨迹更直（低曲率），AI 视频更弯曲——这个几何差异是可靠的检测信号。

方法详解¶

整体框架¶

ReStraV 分三步：(1) 从视频中均匀采样 24 帧，用预训练 DINOv2 ViT-S/14 提取 CLS+patch token 拼接为帧特征 \(z_i \in \mathbb{R}^{75648}\)；(2) 计算帧间步距 \(d_i = \|z_{i+1} - z_i\|\) 和曲率 \(\theta_i = \arccos(\frac{\Delta z_i \cdot \Delta z_{i+1}}{\|\Delta z_i\| \|\Delta z_{i+1}\|})\)；(3) 提取统计描述符（mean/min/max/var），用轻量分类器（MLP/GB/RF）判别。

关键设计¶

感知拉直的差异化效应
做什么：发现 DINOv2 对真实视频和 AI 视频的拉直效果不同。
核心思路：14 种视觉编码器的系统对比发现：HVS 启发模型（Gabor、LGN-V1）对所有视频都做同等拉直（\(\Delta\theta < 0\)，无区分力）；自监督模型（DINOv2）选择性地拉直符合其训练分布的真实视频但不拉直 AI 视频（\(\Delta\theta = 45.46°\)，强区分信号）。关键：绝对拉直能力与检测能力无关（\(\rho=-0.13, p=0.64\)），差异化拉直才是关键。
设计动机：DINOv2 在大量真实数据上自监督训练，其隐空间对真实世界统计特性做了内化——符合先验的真实视频轨迹被拉直，违反先验的 AI 视频轨迹保持弯曲。
时间曲率和步距作为检测特征
做什么：量化表示空间中轨迹的几何属性。
核心思路：曲率 \(\theta_i = \arccos(\frac{\Delta z_i \cdot \Delta z_{i+1}}{d_i \cdot d_{i+1}})\) 衡量相邻位移方向的变化（路径弯曲度）；步距 \(d_i = \|\Delta z_i\|\) 衡量帧间变化幅度。真实视频：低平均曲率（\(\mu_\theta\) 小）、高曲率方差（\(\sigma_\theta^2\) 大）。AI 视频：高平均曲率、低曲率方差——即均匀地弯曲。8 维统计特征向量足以区分。
设计动机：简单的几何量（角度和距离）具有物理直觉性和可解释性，且计算极快。
轻量分类器
做什么：用 off-the-shelf 分类器从 21 维特征向量判别。
核心思路：特征向量包含 7 个步距值 + 6 个曲率值 + 8 维统计量 = 21 维。测试了 LR/GNB/RF/GB/SVM/MLP 六种分类器，MLP（64→32）效果最佳（97.17% 准确率）。全部无需像素级处理或 DINOv2 微调。
设计动机：轻量分类器确保方法透明可解释，且推理极快——DINOv2 前向 43.6ms + 分类 <5ms = ~48ms 端到端。

损失函数 / 训练策略¶

DINOv2 完全冻结（预训练权重）
分类器标准交叉熵训练
无数据增强或特征工程，仅 3-fold grid search

实验关键数据¶

主实验：VidProM 基准¶

方法	类型	准确率↑	AUROC↑
CNNSpot (图像)	监督	52.66	55.47
UnivFD (图像)	监督	68.71	66.11
I3D (视频)	监督	91.76	95.18
VideoSwin (视频)	监督	94.47	97.95
ReStraV-MLP (ours)	轻量	97.17	98.63

跨基准泛化¶

基准	ReStraV 准确率	最佳基线
VidProM	97.17%	94.47% (VideoSwin)
GenVidBench	SOTA	-
Physics-IQ	SOTA	-

消融实验：编码器选择¶

编码器	\(\Delta\theta\) (曲率差)	检测能力
DINOv2 ViT-S/14	+45.46°	最佳
CLIP	+25°	次优
SimCLR	+15°	中等
Gabor (HVS)	-5°	无效

关键发现¶

DINOv2 的差异化拉直是关键：绝对拉直能力≠检测能力，差异化拉直（对真实视频更直、对 AI 视频不拉直）才是检测信号
AI 视频的"均匀弯曲"特征：AI 视频有高平均曲率但低方差——说明生成模型产生的时间不一致性是系统性的而非随机的
像素空间无区分力：在原始像素空间中，真实和 AI 视频的曲率/步距分布高度重叠——必须在学习的表示空间中才能看到差异
极致效率：~48ms 端到端推理，比 VideoSwin 等方法快数十倍
跨生成器泛化：对 Sora/Pika/VideoCrafter 等不同生成器都有效

亮点与洞察¶

从神经科学到 AI 安全的跨域启发非常优雅：感知拉直假说原是解释生物视觉系统的理论，本文巧妙地将其用于 AI 检测——真实视频在"数字神经系统"中也被拉直。
21 维特征击败深度视频模型：说明正确的特征设计比模型复杂度重要得多——方法极简但效果最好。
差异化拉直 vs 绝对拉直的发现是核心贡献：HVS 模型拉直一切（对真实和 AI 同等拉直→无区分力），SSL 模型选择性拉直（只拉直训练分布内的→有区分力）。
可解释性强：曲率和步距有清晰的物理含义——弯曲 = 时间不一致，大步距 = 突然跳变。

局限性 / 可改进方向¶

依赖 DINOv2 的特定训练分布：如果 AI 视频生成器训练数据与 DINOv2 高度重叠，差异化拉直效应可能减弱
仅测试 2-5 秒短视频：长视频的效果未验证
对抗鲁棒性：如果攻击者知道 ReStraV 的原理，可能通过后处理使 AI 视频轨迹变直
帧采样策略固定：24 帧均匀采样可能不是所有场景的最优选择
静态场景可能失效：如果视频内容变化极小，曲率信号可能不够强

评分¶

新颖性: ⭐⭐⭐⭐⭐ 感知拉直→AI 检测的跨域灵感独特，差异化拉直的发现是原创洞察
实验充分度: ⭐⭐⭐⭐⭐ 14 种编码器对比、50K 样本训练/测试、多基准、消融全面
写作质量: ⭐⭐⭐⭐⭐ 从假说→验证→方法→实验的叙事极其流畅，可视化精美
价值: ⭐⭐⭐⭐⭐ 48ms 推理+97%准确率+跨生成器泛化，直接可部署用于内容认证