GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?¶
日期: 2026-03-20
arXiv: 2603.18625
代码: 无
领域: 多模态VLM / AI安全
关键词: AI-generated video detection, LVLM evaluation, fine-grained benchmark, temporal reasoning, physical reasoning
一句话总结¶
构建 GenVideoLens 细粒度 benchmark(400 合成 + 100 真实视频,15 个真实性维度,6000+ 专家标注),系统诊断 11 个 LVLM 在 AI 生成视频检测中的薄弱环节:感知线索尚可,但光学一致性、物理交互和时序因果推理极差,且模型几乎不利用时序信息。
研究背景与动机¶
-
领域现状: AI 生成视频越来越逼真,LVLM 被用于检测这类内容。现有 benchmark(GenVidBench、GenVideo 等)将检测视为二分类问题,只报告整体准确率/F1/AUC。
-
现有痛点: 粗粒度指标无法回答核心问题——LVLM 到底能可靠地检测视频真实性的哪些方面?在哪里失败?缺乏维度级别的诊断能力。
-
核心 idea: 将视频真实性分解为 15 个维度(帧级感知 + 视频级时序/物理/因果推理),逐维度评估 LVLM,暴露具体能力缺口。
方法详解¶
15 维度评估框架¶
帧级(9 维): 纹理真实性、边缘清晰度、材质外观一致性、局部伪造瑕疵、景深合理性、文字/符号可读性、构图自然度、色彩一致性、光影一致性
视频级(6 维): 帧间一致性与重复、面部与运动连续性、物理交互合理性、反射/折射/视差正确性、真实世界逻辑一致性、时序逻辑
数据集构建¶
- 从 GenVideo、GenVidBench、LOKI 等收集候选视频(~8K 真实 + ~11K 生成)
- 3 名志愿者多轮人工筛选,保留 400 个高度欺骗性合成视频 + 100 个真实视频
- 7 名标注员对每个合成视频在 15 维度上标注(yes/no/N/A),margin-based 聚合 + 专家二审不确定样本
- 最终获得 6060 个有效标注
评估指标¶
- \(\text{F}_1^{\text{forged}}\):对伪造类的 F1 分数
- Collapse Rate \(C\):多维度同时评估时模型输出完全相同的比例
实验关键数据¶
维度级表现(F1-forged,选代表性维度)¶
| 维度 | GPT-5 | Gemini-2.5-Pro | Qwen3-VL-8B | InternVL3.5-8B |
|---|---|---|---|---|
| 纹理真实性 | ~0.52 | ~0.68 | 较低 | 较低 |
| 光影一致性 | 极低 | 极低 | 极低 | 极低 |
| 帧间一致性 | 极低 | 极低 | 0.27 | 0.07 |
| 物理交互 | 极低 | 极低 | 0.19 | 0.36 |
| 真实世界逻辑 | ~0.36 | ~0.38 | ~0.68 | ~0.39 |
时序敏感性分析¶
| 配置 | 帧间一致性 F1 | 面部连续性 F1 | 物理交互 F1 |
|---|---|---|---|
| 正序 8帧 | 0.27 / 0.07 | 0.12 / 0.14 | 0.19 / 0.36 |
| 随机序 8帧 | 0.26 / 0.07 | 0.12 / 0.16 | 0.17 / 0.36 |
| 重复帧 | 0.27 / 0.07 | 0.10 / 0.14 | 0.16 / 0.38 |
打乱/重复帧序几乎不影响结果 → LVLM 本质上是逐帧分析器,不利用时序信息。
物理因果推理¶
即使提供帧差图和光流图作为辅助输入,两个模型的 F1-forged 仅 0.11/0.19,准确率 ~50%(接近随机猜测)。
跨维度评估¶
多维度同时 prompt 时 collapse rate > 90%——模型无法做维度解耦推理。
亮点与洞察¶
- 维度不平衡的发现非常重要:LVLMs 在感知级线索上尚可,但光学/物理/时序推理全面崩溃——暴露了从"视觉识别"到"物理推理"的巨大鸿沟
- 时序不敏感实验设计巧妙:打乱帧序不影响结果,直接证明 LVLMs 本质是帧级分析器,"视频理解"名不副实
- 小模型有时优于大模型:开源小模型依赖显著视觉线索(与人工标注更一致),闭源大模型关注高层语义反而忽略物理不一致——提示评估框架设计需与标注策略对齐
局限性 / 可改进方向¶
- 数据集规模较小(仅 400+100),覆盖的生成模型有限
- 15 维度的标注主观性较强,margin-based 聚合可能丢失细微差异
- 只评估了检测能力,未探索如何改进 LVLM 在弱维度上的表现
- 缺少针对时序推理增强的 LVLM(如微调后的模型)的评测
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个维度级 AIGV 检测评估框架,诊断视角新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 11 模型+时序扰动+物理推理+跨维度实验,分析透彻
- 价值: ⭐⭐⭐⭐ 为安全研究社区指明了 LVLM 在 AIGV 检测中的具体薄弱环节