AI-Generated Video Detection via Perceptual Straightening¶
会议: NeurIPS 2025
arXiv: 2507.00583
代码: GitHub
领域: AI安全 / 视频检测 / 表示学习
关键词: AI-generated video detection, perceptual straightening, DINOv2, temporal curvature, representation geometry
一句话总结¶
提出 ReStraV 方法,基于"感知拉直"假说(真实视频在神经表示空间形成更直的轨迹),利用 DINOv2 特征空间中的时间曲率和步距统计量训练轻量分类器检测 AI 生成视频,在 VidProM 上达到 97.17% 准确率和 98.63% AUROC,推理仅需 ~48ms。
研究背景与动机¶
-
领域现状:AI 视频生成(Sora、Pika、VideoCrafter 等)快速发展,生成内容日益逼真,检测需求迫切。现有检测方法包括基于图像的(CNNSpot、UnivFD)和基于视频的(I3D、SlowFast、VideoSwin),但前者忽略时间信息,后者需要大量训练且泛化差。
-
现有痛点:(a) 图像级检测器无法捕获时间不一致性;(b) 视频级检测器需要针对特定生成器大量训练,在新生成器上泛化差;(c) 水印方案依赖生成者配合且可被规避。
-
核心矛盾:需要一种不依赖特定生成器伪影、能捕获时间维度异常的通用检测方法。
-
本文要解决什么?
- 是否存在真实视频 vs AI 视频在神经表示空间的本质几何差异?
-
能否用这种差异做高效、通用的检测?
-
切入角度:受神经科学"感知拉直"假说启发——视觉系统将真实视频的时间轨迹"拉直"以便预测编码。假设预训练视觉模型(DINOv2)对真实视频做选择性拉直但不拉直 AI 视频,产生可区分的曲率差异。
-
核心 idea 一句话:真实视频在 DINOv2 表示空间中轨迹更直(低曲率),AI 视频更弯曲——这个几何差异是可靠的检测信号。
方法详解¶
整体框架¶
ReStraV 分三步:(1) 从视频中均匀采样 24 帧,用预训练 DINOv2 ViT-S/14 提取 CLS+patch token 拼接为帧特征 \(z_i \in \mathbb{R}^{75648}\);(2) 计算帧间步距 \(d_i = \|z_{i+1} - z_i\|\) 和曲率 \(\theta_i = \arccos(\frac{\Delta z_i \cdot \Delta z_{i+1}}{\|\Delta z_i\| \|\Delta z_{i+1}\|})\);(3) 提取统计描述符(mean/min/max/var),用轻量分类器(MLP/GB/RF)判别。
关键设计¶
- 感知拉直的差异化效应
- 做什么:发现 DINOv2 对真实视频和 AI 视频的拉直效果不同。
- 核心思路:14 种视觉编码器的系统对比发现:HVS 启发模型(Gabor、LGN-V1)对所有视频都做同等拉直(\(\Delta\theta < 0\),无区分力);自监督模型(DINOv2)选择性地拉直符合其训练分布的真实视频但不拉直 AI 视频(\(\Delta\theta = 45.46°\),强区分信号)。关键:绝对拉直能力与检测能力无关(\(\rho=-0.13, p=0.64\)),差异化拉直才是关键。
-
设计动机:DINOv2 在大量真实数据上自监督训练,其隐空间对真实世界统计特性做了内化——符合先验的真实视频轨迹被拉直,违反先验的 AI 视频轨迹保持弯曲。
-
时间曲率和步距作为检测特征
- 做什么:量化表示空间中轨迹的几何属性。
- 核心思路:曲率 \(\theta_i = \arccos(\frac{\Delta z_i \cdot \Delta z_{i+1}}{d_i \cdot d_{i+1}})\) 衡量相邻位移方向的变化(路径弯曲度);步距 \(d_i = \|\Delta z_i\|\) 衡量帧间变化幅度。真实视频:低平均曲率(\(\mu_\theta\) 小)、高曲率方差(\(\sigma_\theta^2\) 大)。AI 视频:高平均曲率、低曲率方差——即均匀地弯曲。8 维统计特征向量足以区分。
-
设计动机:简单的几何量(角度和距离)具有物理直觉性和可解释性,且计算极快。
-
轻量分类器
- 做什么:用 off-the-shelf 分类器从 21 维特征向量判别。
- 核心思路:特征向量包含 7 个步距值 + 6 个曲率值 + 8 维统计量 = 21 维。测试了 LR/GNB/RF/GB/SVM/MLP 六种分类器,MLP(64→32)效果最佳(97.17% 准确率)。全部无需像素级处理或 DINOv2 微调。
- 设计动机:轻量分类器确保方法透明可解释,且推理极快——DINOv2 前向 43.6ms + 分类 <5ms = ~48ms 端到端。
损失函数 / 训练策略¶
- DINOv2 完全冻结(预训练权重)
- 分类器标准交叉熵训练
- 无数据增强或特征工程,仅 3-fold grid search
实验关键数据¶
主实验:VidProM 基准¶
| 方法 | 类型 | 准确率↑ | AUROC↑ |
|---|---|---|---|
| CNNSpot (图像) | 监督 | 52.66 | 55.47 |
| UnivFD (图像) | 监督 | 68.71 | 66.11 |
| I3D (视频) | 监督 | 91.76 | 95.18 |
| VideoSwin (视频) | 监督 | 94.47 | 97.95 |
| ReStraV-MLP (ours) | 轻量 | 97.17 | 98.63 |
跨基准泛化¶
| 基准 | ReStraV 准确率 | 最佳基线 |
|---|---|---|
| VidProM | 97.17% | 94.47% (VideoSwin) |
| GenVidBench | SOTA | - |
| Physics-IQ | SOTA | - |
消融实验:编码器选择¶
| 编码器 | \(\Delta\theta\) (曲率差) | 检测能力 |
|---|---|---|
| DINOv2 ViT-S/14 | +45.46° | 最佳 |
| CLIP | +25° | 次优 |
| SimCLR | +15° | 中等 |
| Gabor (HVS) | -5° | 无效 |
关键发现¶
- DINOv2 的差异化拉直是关键:绝对拉直能力≠检测能力,差异化拉直(对真实视频更直、对 AI 视频不拉直)才是检测信号
- AI 视频的"均匀弯曲"特征:AI 视频有高平均曲率但低方差——说明生成模型产生的时间不一致性是系统性的而非随机的
- 像素空间无区分力:在原始像素空间中,真实和 AI 视频的曲率/步距分布高度重叠——必须在学习的表示空间中才能看到差异
- 极致效率:~48ms 端到端推理,比 VideoSwin 等方法快数十倍
- 跨生成器泛化:对 Sora/Pika/VideoCrafter 等不同生成器都有效
亮点与洞察¶
- 从神经科学到 AI 安全的跨域启发非常优雅:感知拉直假说原是解释生物视觉系统的理论,本文巧妙地将其用于 AI 检测——真实视频在"数字神经系统"中也被拉直。
- 21 维特征击败深度视频模型:说明正确的特征设计比模型复杂度重要得多——方法极简但效果最好。
- 差异化拉直 vs 绝对拉直的发现是核心贡献:HVS 模型拉直一切(对真实和 AI 同等拉直→无区分力),SSL 模型选择性拉直(只拉直训练分布内的→有区分力)。
- 可解释性强:曲率和步距有清晰的物理含义——弯曲 = 时间不一致,大步距 = 突然跳变。
局限性 / 可改进方向¶
- 依赖 DINOv2 的特定训练分布:如果 AI 视频生成器训练数据与 DINOv2 高度重叠,差异化拉直效应可能减弱
- 仅测试 2-5 秒短视频:长视频的效果未验证
- 对抗鲁棒性:如果攻击者知道 ReStraV 的原理,可能通过后处理使 AI 视频轨迹变直
- 帧采样策略固定:24 帧均匀采样可能不是所有场景的最优选择
- 静态场景可能失效:如果视频内容变化极小,曲率信号可能不够强
相关工作与启发¶
- vs CNNSpot / UnivFD (图像检测):frame-by-frame 检测忽略时间维度,性能远逊于 ReStraV
- vs I3D / VideoSwin (视频检测):端到端视频模型需要大量训练且计算量大;ReStraV 用冻结特征+轻量分类器即超越
- vs 水印方案:水印需要生成者配合,ReStraV 无需——完全后验检测
- 迁移启示:表示空间几何分析可能适用于其他生成内容检测(AI 图像、AI 音频、AI 文本?)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 感知拉直→AI 检测的跨域灵感独特,差异化拉直的发现是原创洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 14 种编码器对比、50K 样本训练/测试、多基准、消融全面
- 写作质量: ⭐⭐⭐⭐⭐ 从假说→验证→方法→实验的叙事极其流畅,可视化精美
- 价值: ⭐⭐⭐⭐⭐ 48ms 推理+97%准确率+跨生成器泛化,直接可部署用于内容认证