GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?¶
日期: 2026-03-19
arXiv: 2603.18625
领域: 多模态/VLM / AI安全
关键词: AI生成视频检测, 细粒度评估, 真实性维度, LVLM诊断, 时序推理
一句话总结¶
提出 GenVideoLens,一个 15 维细粒度 AI 生成视频检测基准(400 高仿真合成+100 真实视频,6000+ 专家标注),揭示 LVLM 在光学一致性、物理交互和时序因果推理上的系统性弱点,且模型几乎不利用时序信息做真伪判断。
研究背景与动机¶
-
领域现状: AI 生成视频日益逼真,LVLM 被用于检测。现有基准(GenVidBench、GenVideo)主要做二分类(真/假)+ 粗粒度指标(准确率/F1)。
-
现有痛点: 只知道"模型对了/错了",不知道"模型在哪个方面对了/错了"。二分类准确率无法揭示 LVLM 具体依赖哪些视觉线索、在哪些维度失败。
-
核心矛盾: 需要细粒度诊断来指导改进,但现有基准只提供粗粒度信号。
-
核心 idea: 将视频真实性分解为 15 个维度(帧级感知+视频级推理),在每个维度上独立评估 LVLM 表现——从"能不能检测"深入到"依靠什么检测"。
方法详解¶
15 维评估框架¶
帧级维度 (9 个):纹理真实性、边缘清晰度、材质一致性、局部伪造痕迹、景深合理性、文字可读性、构图自然度、色彩一致性、光照阴影一致性
视频级维度 (6 个):帧间一致性、面部/运动连续性、物理交互合理性、反射/折射/视差、时序因果逻辑、真实世界逻辑
数据集¶
- 400 高仿真 AI 生成视频(来自 Sora/Open-Sora 等多种生成器)+ 100 真实视频
- 7 名标注者 × 15 维度 = 6,060 有效标注
- 多阶段筛选确保高欺骗性(人类也难分辨的样本)
评估方法¶
- 逐维度 F1 评分
- 崩塌率 (Collapse Rate):模型对所有维度给出相同答案的比例——衡量是否做了维度特定推理
- 时序扰动实验:打乱帧序 → 看模型表现是否变化 → 衡量模型是否利用了时序信息
实验关键数据¶
11 个 LVLM 的维度级表现¶
| 维度类别 | LVLM 表现 | 说明 |
|---|---|---|
| 感知线索(纹理/边缘/材质) | 相对较好 | 模型擅长低级视觉特征 |
| 光学一致性 | 差 | 光照/阴影/反射推理薄弱 |
| 物理交互 | 差 | 接触/遮挡/力学推理不足 |
| 时序因果推理 | 最差 | 几乎不利用帧间信息 |
核心发现¶
| 发现 | 数据 |
|---|---|
| 维度严重不均衡 | 感知维度 F1 高,推理维度 F1 低 |
| 开源有时胜闭源 | 小模型在光学/物理维度偶尔超过 GPT 等 |
| 时序信息几乎未被利用 | 打乱帧序后 F1 变化极小 |
| 物理逻辑接受"不可能事件" | 视觉连贯但物理不合理的事件被判为真 |
| 崩塌率较高 | 多维度同时评估时模型倾向给出统一答案 |
亮点与洞察¶
- "LVLM 是纹理检测器而非推理器":模型在低级感知线索上还行,但在需要物理推理和时序理解的维度上全面失败——说明当前 LVLM 的"推理"更多是模式匹配。
- 时序扰动实验的深刻结论:打乱帧序后检测性能几乎不变——模型实际上在做"单帧分析"而非"视频理解"。这对所有声称做"视频理解"的 LVLM 是一个警示。
- 开源偶胜闭源的有趣发现:可能因为开源模型更依赖视觉显著线索(与人类标注对齐),而闭源模型更侧重高层语义(可能忽略细微物理不一致)。
局限性 / 可改进方向¶
- 规模较小:400+100 视频,统计力度有限
- 仅覆盖几种生成器:新一代模型(如 Veo3)的视频可能更难检测
- 15 维度的粒度选择:为什么是这 15 个?是否遗漏了重要维度(如音频-视频同步)?
相关工作与启发¶
- vs GenVidBench: 只做二分类评估,GenVideoLens 扩展到 15 维诊断
- vs EvoGuard (同期 03-18): EvoGuard 做 AIGI 图像检测的 Agent 框架,GenVideoLens 专注视频的细粒度诊断——两者互补
- 启发:这种"把任务分解为多个可评估维度"的基准设计方法论值得推广到其他 AI 评估任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 15 维度分解和时序扰动实验是新颖的诊断工具
- 实验充分度: ⭐⭐⭐⭐ 11 模型 + 逐维度分析 + 时序扰动 + 崩塌率分析
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,发现描述详实
- 价值: ⭐⭐⭐⭐ 对 AI 生成视频检测社区有重要诊断价值