VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL¶
会议: ICLR 2026
arXiv: 2510.02282
代码: 项目页面
领域: 视频真伪检测/推理
关键词: AI生成视频检测, MLLM推理, GRPO, 时序伪影, 可解释取证
一句话总结¶
VidGuard-R1 是首个采用 GRPO(Group Relative Policy Optimization)强化学习微调 MLLM 的视频真伪检测器,通过构建 14 万无快捷方式的真/假视频对数据集,并设计时序伪影奖励和扩散步数质量奖励两种专用奖励机制,在自建数据集上达到 86.17% 准确率,在 GenVidBench 和 GenVideo 基准上实现 95%+ 的 SOTA 零样本检测性能,同时生成可解释的思维链推理。
研究背景与动机¶
领域现状:AI 视频生成模型(Sora、HunyuanVideo、Wan 等)的视频质量飞速提升,生成视频与真实视频的界限日益模糊,带来虚假信息传播、隐私侵犯、诈骗等严重社会风险,亟需准确且可解释的检测工具。
现有痛点:
- 传统检测器局限性大:早期 DeepFake 检测器仅针对面部伪造,无法泛化到开放域多场景视频;时空一致性方法容易被后处理绕过
- MLLM 直接应用效果差:GPT-4o 等强大 MLLM 直接用于视频真伪判断时准确率仅约 57%,与随机猜测相差无几
- SFT 微调推理能力弱:SFT 虽提升了检测准确率,但模型无法生成"为什么是假的"这样有意义的解释——推理能力不足
- 现有数据集有快捷方式:GenVideo、GenVidBench 等基准中真假视频在分辨率、帧率、码率、时长上存在系统性差异,模型利用元数据而非视觉真实性进行判断
核心矛盾:需要模型既能准确检测又能深度推理"假在哪里",而 SFT 只能教会格式无法激发探索性推理。
本文方案:引入 GRPO 强化学习框架,通过多路径推理采样和组内排名,鼓励模型自主发现物理不一致性,并设计两种专用奖励信号引导时序推理和质量感知。
方法详解¶
整体框架¶
VidGuard-R1 采用两阶段训练:阶段一 SFT 初始化(在 30K 视频上学习 CoT 推理格式)→ 阶段二 RL 强化推理(在 100K 视频上用 GRPO/DPO 进一步提升推理和检测能力)。基座模型为 Qwen2.5-VL-7B。
关键设计一:无快捷方式的训练数据构建¶
现有基准的致命缺陷是真假视频在低级特征上存在系统性差异(真实视频 >10 秒、假视频 <4 秒等),导致模型走捷径。本文构建 140K 视频数据集消除这些偏差:
- 真实视频来源:InternVid(55K)+ ActivityNet(15K)
- 生成视频:用 HunyuanVideo-I2V(50K)+ CogVideoX-5B(20K)从真实视频的首帧+文本描述生成对应假视频
- 标准化:统一为 49 帧、8 FPS、720×480 分辨率、YUV420p 格式
- CoT 标注:用 Qwen-2.5-VL-72B 生成包含动作一致性、光照一致性、纹理伪影、物理合理性等维度的推理注释
关键设计二:GRPO-TA(时序伪影增强奖励)¶
标准 GRPO 善于利用局部视觉线索(像素失真、光照异常),但忽略时序不一致性。GRPO-TA 通过注入时序伪影来强化时序推理:
- 操作方式:对视频随机执行片段重复或帧序反转(基于高斯分布选择操作区域)
- 非对称奖励设计:检测到真实视频被篡改后的时序异常给予更高奖励 \(\alpha_1 = 0.5\)(更难发现),生成视频被篡改给较低奖励 \(\alpha_2 = 0.3\)(更易发现)
- 条件激活:仅当原始视频预测正确且篡改视频的组准确率 \(\tilde{p} > \mu = 0.8\) 时才添加额外奖励
奖励函数:
关键设计三:GRPO-Q(质量演化奖励)¶
利用扩散模型的内在属性——不同反向扩散步数产生不同质量的视频——来训练模型进行细粒度质量感知:
- 数据增强:对 12K 真实视频,用扩散步数 10-50 生成 5 个质量级别(20%, 40%, 60%, 80%, 95%)的变体,共 72K 样本/模型
- 分级奖励:精确匹配质量级别得满分 \(\delta = 1\),不精确匹配按预测与真实步数的距离给予部分奖励 \(g(o_i, y_i) = \delta \cdot (1 - |s(o_i) - s(y_i)|)\)
- 超越二值判断:模型不仅判真假,还能估计生成视频的质量退化程度
实验结果¶
主实验:自建数据集上的检测性能¶
| 方法 | 类型 | CogVideoX 准确率(%) | HunyuanVideo 准确率(%) |
|---|---|---|---|
| I3D | CNN | 64.78 | 62.13 |
| SlowFast | CNN | 77.87 | 77.03 |
| TimeSformer | Transformer | 78.53 | 74.55 |
| VideoSwin | Transformer | 76.81 | 79.71 |
| GPT-4o | MLLM | 56.81 | 57.42 |
| Qwen2.5-VL-7B | MLLM | 50.95 | 52.83 |
| VidGuard-R1 (CoT/SFT) | MLLM | 66.18 | 63.19 |
| VidGuard-R1 (DPO) | MLLM | 79.13 | 80.88 |
| VidGuard-R1 (GRPO) | MLLM | 81.30 | 81.90 |
| VidGuard-R1 (GRPO-TA) | MLLM | 82.17 | 83.72 |
| VidGuard-R1 (GRPO-Q) | MLLM | 84.32 | 86.17 |
关键观察:(1) Qwen2.5-VL-7B/GPT-4o 直接应用接近随机(~50-57%);(2) SFT 将准确率提升至 66%,但仍不如传统视频模型;(3) GRPO 在 DPO 基础上再提 ~2%;(4) GRPO-TA 和 GRPO-Q 分别再提 ~2% 和 ~5%,证实专用奖励的有效性。
跨基准零样本泛化¶
| 方法 | GenVidBench 均值(%) | GenVideo 最优指标 |
|---|---|---|
| MViT V2 | 79.90 | - |
| GPT-4.1 mini | 59.62 | - |
| VidGuard-R1 (GRPO, 零样本) | 96.37 | F1: 0.97 |
| VidGuard-R1 (GRPO, 微调) | 97.53 | F1: 0.98 |
VidGuard-R1 在 GenVidBench 上零样本达到 96.37%,超过先前 SOTA(MViT V2, 79.90%)约 17 个百分点;在 GenVideo 上 F1 也大幅领先。微调后进一步提升至 97.53%。
消融实验:各训练阶段贡献¶
| 训练配置 | CogVideoX | HunyuanVideo | 增益来源 |
|---|---|---|---|
| SFT (CoT) | 66.18 | 63.19 | 基础推理格式 |
| + DPO | 79.13 | 80.88 | 偏好对齐 +15% |
| + GRPO | 81.30 | 81.90 | 组排名探索 +2% |
| + GRPO-TA | 82.17 | 83.72 | 时序推理 +1.8% |
| + GRPO-Q | 84.32 | 86.17 | 质量感知 +2.5% |
每个阶段都带来明确且一致的提升,其中从 SFT 到 DPO 的跳跃最大(~15%),说明偏好学习是关键;GRPO-Q 的质量分级奖励带来最强的增量提升。
论文评价¶
优点¶
- 首创性:首次将 GRPO 强化学习应用于 AI 生成视频检测,建立了"检测 + 解释"的范式
- 奖励设计巧妙:GRPO-TA 的非对称时序伪影奖励和 GRPO-Q 的扩散步数质量奖励都利用了生成模型的内在特性,针对性强
- 数据集严谨:通过标准化消除快捷方式,确保模型学习视觉真实性而非元数据差异
- 泛化能力突出:零样本即在 GenVidBench/GenVideo 上达到 95%+,远超之前所有方法
不足¶
- 基座模型固定为 Qwen2.5-VL-7B,未验证在其他 MLLM 上的通用性
- GRPO-Q 需要生成多种扩散步数的视频,数据构建成本高
- 生成模型快速迭代,检测方法的持久有效性不确定
评分¶
⭐⭐⭐⭐ — 将推理型 RL 引入视频取证领域的开创性工作,方法设计精巧、实验充分,为可解释的 AI 安全检测提供了强有力的范式。
相关论文¶
- [ECCV 2024] Zero-Shot Detection of AI-Generated Images
- [AAAI 2026] Beyond Semantic Features: Pixel-Level Mapping for Generalized AI-Generated Image Detection
- [ICLR 2026] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning
- [CVPR 2026] Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward
- [ICCV 2025] ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning