GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?¶

日期: 2026-03-19
arXiv: 2603.18625
领域: 多模态/VLM / AI安全
关键词: AI生成视频检测, 细粒度评估, 真实性维度, LVLM诊断, 时序推理

一句话总结¶

提出 GenVideoLens，一个 15 维细粒度 AI 生成视频检测基准（400 高仿真合成+100 真实视频，6000+ 专家标注），揭示 LVLM 在光学一致性、物理交互和时序因果推理上的系统性弱点，且模型几乎不利用时序信息做真伪判断。

领域现状: AI 生成视频日益逼真，LVLM 被用于检测。现有基准（GenVidBench、GenVideo）主要做二分类（真/假）+ 粗粒度指标（准确率/F1）。
现有痛点: 只知道"模型对了/错了"，不知道"模型在哪个方面对了/错了"。二分类准确率无法揭示 LVLM 具体依赖哪些视觉线索、在哪些维度失败。
核心矛盾: 需要细粒度诊断来指导改进，但现有基准只提供粗粒度信号。
核心 idea: 将视频真实性分解为 15 个维度（帧级感知+视频级推理），在每个维度上独立评估 LVLM 表现——从"能不能检测"深入到"依靠什么检测"。

帧级维度 (9 个)：纹理真实性、边缘清晰度、材质一致性、局部伪造痕迹、景深合理性、文字可读性、构图自然度、色彩一致性、光照阴影一致性

视频级维度 (6 个)：帧间一致性、面部/运动连续性、物理交互合理性、反射/折射/视差、时序因果逻辑、真实世界逻辑

"LVLM 是纹理检测器而非推理器"：模型在低级感知线索上还行，但在需要物理推理和时序理解的维度上全面失败——说明当前 LVLM 的"推理"更多是模式匹配。
时序扰动实验的深刻结论：打乱帧序后检测性能几乎不变——模型实际上在做"单帧分析"而非"视频理解"。这对所有声称做"视频理解"的 LVLM 是一个警示。
开源偶胜闭源的有趣发现：可能因为开源模型更依赖视觉显著线索（与人类标注对齐），而闭源模型更侧重高层语义（可能忽略细微物理不一致）。