跳转至

GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?

日期: 2026-03-19
arXiv: 2603.18625
领域: 多模态/VLM / AI安全
关键词: AI生成视频检测, 细粒度评估, 真实性维度, LVLM诊断, 时序推理

一句话总结

提出 GenVideoLens,一个 15 维细粒度 AI 生成视频检测基准(400 高仿真合成+100 真实视频,6000+ 专家标注),揭示 LVLM 在光学一致性、物理交互和时序因果推理上的系统性弱点,且模型几乎不利用时序信息做真伪判断。

研究背景与动机

  1. 领域现状: AI 生成视频日益逼真,LVLM 被用于检测。现有基准(GenVidBench、GenVideo)主要做二分类(真/假)+ 粗粒度指标(准确率/F1)。

  2. 现有痛点: 只知道"模型对了/错了",不知道"模型在哪个方面对了/错了"。二分类准确率无法揭示 LVLM 具体依赖哪些视觉线索、在哪些维度失败。

  3. 核心矛盾: 需要细粒度诊断来指导改进,但现有基准只提供粗粒度信号。

  4. 核心 idea: 将视频真实性分解为 15 个维度(帧级感知+视频级推理),在每个维度上独立评估 LVLM 表现——从"能不能检测"深入到"依靠什么检测"。

方法详解

15 维评估框架

帧级维度 (9 个):纹理真实性、边缘清晰度、材质一致性、局部伪造痕迹、景深合理性、文字可读性、构图自然度、色彩一致性、光照阴影一致性

视频级维度 (6 个):帧间一致性、面部/运动连续性、物理交互合理性、反射/折射/视差、时序因果逻辑、真实世界逻辑

数据集

  • 400 高仿真 AI 生成视频(来自 Sora/Open-Sora 等多种生成器)+ 100 真实视频
  • 7 名标注者 × 15 维度 = 6,060 有效标注
  • 多阶段筛选确保高欺骗性(人类也难分辨的样本)

评估方法

  • 逐维度 F1 评分
  • 崩塌率 (Collapse Rate):模型对所有维度给出相同答案的比例——衡量是否做了维度特定推理
  • 时序扰动实验:打乱帧序 → 看模型表现是否变化 → 衡量模型是否利用了时序信息

实验关键数据

11 个 LVLM 的维度级表现

维度类别 LVLM 表现 说明
感知线索(纹理/边缘/材质) 相对较好 模型擅长低级视觉特征
光学一致性 光照/阴影/反射推理薄弱
物理交互 接触/遮挡/力学推理不足
时序因果推理 最差 几乎不利用帧间信息

核心发现

发现 数据
维度严重不均衡 感知维度 F1 高,推理维度 F1 低
开源有时胜闭源 小模型在光学/物理维度偶尔超过 GPT 等
时序信息几乎未被利用 打乱帧序后 F1 变化极小
物理逻辑接受"不可能事件" 视觉连贯但物理不合理的事件被判为真
崩塌率较高 多维度同时评估时模型倾向给出统一答案

亮点与洞察

  • "LVLM 是纹理检测器而非推理器":模型在低级感知线索上还行,但在需要物理推理和时序理解的维度上全面失败——说明当前 LVLM 的"推理"更多是模式匹配。
  • 时序扰动实验的深刻结论:打乱帧序后检测性能几乎不变——模型实际上在做"单帧分析"而非"视频理解"。这对所有声称做"视频理解"的 LVLM 是一个警示。
  • 开源偶胜闭源的有趣发现:可能因为开源模型更依赖视觉显著线索(与人类标注对齐),而闭源模型更侧重高层语义(可能忽略细微物理不一致)。

局限性 / 可改进方向

  • 规模较小:400+100 视频,统计力度有限
  • 仅覆盖几种生成器:新一代模型(如 Veo3)的视频可能更难检测
  • 15 维度的粒度选择:为什么是这 15 个?是否遗漏了重要维度(如音频-视频同步)?

相关工作与启发

  • vs GenVidBench: 只做二分类评估,GenVideoLens 扩展到 15 维诊断
  • vs EvoGuard (同期 03-18): EvoGuard 做 AIGI 图像检测的 Agent 框架,GenVideoLens 专注视频的细粒度诊断——两者互补
  • 启发:这种"把任务分解为多个可评估维度"的基准设计方法论值得推广到其他 AI 评估任务

评分

  • 新颖性: ⭐⭐⭐⭐ 15 维度分解和时序扰动实验是新颖的诊断工具
  • 实验充分度: ⭐⭐⭐⭐ 11 模型 + 逐维度分析 + 时序扰动 + 崩塌率分析
  • 写作质量: ⭐⭐⭐⭐ 框架图清晰,发现描述详实
  • 价值: ⭐⭐⭐⭐ 对 AI 生成视频检测社区有重要诊断价值