GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?¶

日期: 2026-03-20
arXiv: 2603.18625
代码: 无
领域: 多模态VLM / AI安全
关键词: AI-generated video detection, LVLM evaluation, fine-grained benchmark, temporal reasoning, physical reasoning

一句话总结¶

构建 GenVideoLens 细粒度 benchmark（400 合成 + 100 真实视频，15 个真实性维度，6000+ 专家标注），系统诊断 11 个 LVLM 在 AI 生成视频检测中的薄弱环节：感知线索尚可，但光学一致性、物理交互和时序因果推理极差，且模型几乎不利用时序信息。

研究背景与动机¶

领域现状: AI 生成视频越来越逼真，LVLM 被用于检测这类内容。现有 benchmark（GenVidBench、GenVideo 等）将检测视为二分类问题，只报告整体准确率/F1/AUC。
现有痛点: 粗粒度指标无法回答核心问题——LVLM 到底能可靠地检测视频真实性的哪些方面？在哪里失败？缺乏维度级别的诊断能力。
核心 idea: 将视频真实性分解为 15 个维度（帧级感知 + 视频级时序/物理/因果推理），逐维度评估 LVLM，暴露具体能力缺口。

方法详解¶

15 维度评估框架¶

帧级（9 维）: 纹理真实性、边缘清晰度、材质外观一致性、局部伪造瑕疵、景深合理性、文字/符号可读性、构图自然度、色彩一致性、光影一致性

视频级（6 维）: 帧间一致性与重复、面部与运动连续性、物理交互合理性、反射/折射/视差正确性、真实世界逻辑一致性、时序逻辑

数据集构建¶

从 GenVideo、GenVidBench、LOKI 等收集候选视频（~8K 真实 + ~11K 生成）
3 名志愿者多轮人工筛选，保留 400 个高度欺骗性合成视频 + 100 个真实视频
7 名标注员对每个合成视频在 15 维度上标注（yes/no/N/A），margin-based 聚合 + 专家二审不确定样本
最终获得 6060 个有效标注

评估指标¶

\(\text{F}_1^{\text{forged}}\)：对伪造类的 F1 分数
Collapse Rate \(C\)：多维度同时评估时模型输出完全相同的比例

实验关键数据¶

维度级表现（F1-forged，选代表性维度）¶

维度	GPT-5	Gemini-2.5-Pro	Qwen3-VL-8B	InternVL3.5-8B
纹理真实性	~0.52	~0.68	较低	较低
光影一致性	极低	极低	极低	极低
帧间一致性	极低	极低	0.27	0.07
物理交互	极低	极低	0.19	0.36
真实世界逻辑	~0.36	~0.38	~0.68	~0.39

时序敏感性分析¶

配置	帧间一致性 F1	面部连续性 F1	物理交互 F1
正序 8帧	0.27 / 0.07	0.12 / 0.14	0.19 / 0.36
随机序 8帧	0.26 / 0.07	0.12 / 0.16	0.17 / 0.36
重复帧	0.27 / 0.07	0.10 / 0.14	0.16 / 0.38

打乱/重复帧序几乎不影响结果 → LVLM 本质上是逐帧分析器，不利用时序信息。

物理因果推理¶

即使提供帧差图和光流图作为辅助输入，两个模型的 F1-forged 仅 0.11/0.19，准确率 ~50%（接近随机猜测）。

跨维度评估¶

多维度同时 prompt 时 collapse rate > 90%——模型无法做维度解耦推理。

亮点与洞察¶

维度不平衡的发现非常重要：LVLMs 在感知级线索上尚可，但光学/物理/时序推理全面崩溃——暴露了从"视觉识别"到"物理推理"的巨大鸿沟
时序不敏感实验设计巧妙：打乱帧序不影响结果，直接证明 LVLMs 本质是帧级分析器，"视频理解"名不副实
小模型有时优于大模型：开源小模型依赖显著视觉线索（与人工标注更一致），闭源大模型关注高层语义反而忽略物理不一致——提示评估框架设计需与标注策略对齐

局限性 / 可改进方向¶

数据集规模较小（仅 400+100），覆盖的生成模型有限
15 维度的标注主观性较强，margin-based 聚合可能丢失细微差异
只评估了检测能力，未探索如何改进 LVLM 在弱维度上的表现
缺少针对时序推理增强的 LVLM（如微调后的模型）的评测

评分¶

新颖性: ⭐⭐⭐⭐ 首个维度级 AIGV 检测评估框架，诊断视角新颖
实验充分度: ⭐⭐⭐⭐⭐ 11 模型+时序扰动+物理推理+跨维度实验，分析透彻
价值: ⭐⭐⭐⭐ 为安全研究社区指明了 LVLM 在 AIGV 检测中的具体薄弱环节