跳转至

GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?

日期: 2026-03-20
arXiv: 2603.18625
代码: 无
领域: 多模态VLM / AI安全
关键词: AI-generated video detection, LVLM evaluation, fine-grained benchmark, temporal reasoning, physical reasoning

一句话总结

构建 GenVideoLens 细粒度 benchmark(400 合成 + 100 真实视频,15 个真实性维度,6000+ 专家标注),系统诊断 11 个 LVLM 在 AI 生成视频检测中的薄弱环节:感知线索尚可,但光学一致性、物理交互和时序因果推理极差,且模型几乎不利用时序信息。

研究背景与动机

  1. 领域现状: AI 生成视频越来越逼真,LVLM 被用于检测这类内容。现有 benchmark(GenVidBench、GenVideo 等)将检测视为二分类问题,只报告整体准确率/F1/AUC。

  2. 现有痛点: 粗粒度指标无法回答核心问题——LVLM 到底能可靠地检测视频真实性的哪些方面?在哪里失败?缺乏维度级别的诊断能力。

  3. 核心 idea: 将视频真实性分解为 15 个维度(帧级感知 + 视频级时序/物理/因果推理),逐维度评估 LVLM,暴露具体能力缺口。

方法详解

15 维度评估框架

帧级(9 维): 纹理真实性、边缘清晰度、材质外观一致性、局部伪造瑕疵、景深合理性、文字/符号可读性、构图自然度、色彩一致性、光影一致性

视频级(6 维): 帧间一致性与重复、面部与运动连续性、物理交互合理性、反射/折射/视差正确性、真实世界逻辑一致性、时序逻辑

数据集构建

  • 从 GenVideo、GenVidBench、LOKI 等收集候选视频(~8K 真实 + ~11K 生成)
  • 3 名志愿者多轮人工筛选,保留 400 个高度欺骗性合成视频 + 100 个真实视频
  • 7 名标注员对每个合成视频在 15 维度上标注(yes/no/N/A),margin-based 聚合 + 专家二审不确定样本
  • 最终获得 6060 个有效标注

评估指标

  • \(\text{F}_1^{\text{forged}}\):对伪造类的 F1 分数
  • Collapse Rate \(C\):多维度同时评估时模型输出完全相同的比例

实验关键数据

维度级表现(F1-forged,选代表性维度)

维度 GPT-5 Gemini-2.5-Pro Qwen3-VL-8B InternVL3.5-8B
纹理真实性 ~0.52 ~0.68 较低 较低
光影一致性 极低 极低 极低 极低
帧间一致性 极低 极低 0.27 0.07
物理交互 极低 极低 0.19 0.36
真实世界逻辑 ~0.36 ~0.38 ~0.68 ~0.39

时序敏感性分析

配置 帧间一致性 F1 面部连续性 F1 物理交互 F1
正序 8帧 0.27 / 0.07 0.12 / 0.14 0.19 / 0.36
随机序 8帧 0.26 / 0.07 0.12 / 0.16 0.17 / 0.36
重复帧 0.27 / 0.07 0.10 / 0.14 0.16 / 0.38

打乱/重复帧序几乎不影响结果 → LVLM 本质上是逐帧分析器,不利用时序信息。

物理因果推理

即使提供帧差图和光流图作为辅助输入,两个模型的 F1-forged 仅 0.11/0.19,准确率 ~50%(接近随机猜测)。

跨维度评估

多维度同时 prompt 时 collapse rate > 90%——模型无法做维度解耦推理。

亮点与洞察

  • 维度不平衡的发现非常重要:LVLMs 在感知级线索上尚可,但光学/物理/时序推理全面崩溃——暴露了从"视觉识别"到"物理推理"的巨大鸿沟
  • 时序不敏感实验设计巧妙:打乱帧序不影响结果,直接证明 LVLMs 本质是帧级分析器,"视频理解"名不副实
  • 小模型有时优于大模型:开源小模型依赖显著视觉线索(与人工标注更一致),闭源大模型关注高层语义反而忽略物理不一致——提示评估框架设计需与标注策略对齐

局限性 / 可改进方向

  • 数据集规模较小(仅 400+100),覆盖的生成模型有限
  • 15 维度的标注主观性较强,margin-based 聚合可能丢失细微差异
  • 只评估了检测能力,未探索如何改进 LVLM 在弱维度上的表现
  • 缺少针对时序推理增强的 LVLM(如微调后的模型)的评测

评分

  • 新颖性: ⭐⭐⭐⭐ 首个维度级 AIGV 检测评估框架,诊断视角新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 11 模型+时序扰动+物理推理+跨维度实验,分析透彻
  • 价值: ⭐⭐⭐⭐ 为安全研究社区指明了 LVLM 在 AIGV 检测中的具体薄弱环节