跳转至

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

日期: 2026-03-16
arXiv: 2603.14935
代码: 即将发布
领域: 多模态/VLM / 视频理解
关键词: 视频事件预测, Chain of Events, GRPO, 时序建模, 视觉注意力

一句话总结

提出 Chain of Events (CoE) 范式,通过构造时序事件链实现细粒度历史事件建模,用两阶段训练(CoE-SFT 建立逻辑推理 + CoE-GRPO 解锁时序定位),在 FutureBench 上 3B 模型超越 72B 基线和 GPT-5,7B 模型达到 75.0% 平均准确率。

研究背景与动机

  1. 领域现状: MLLM 在视频理解/推理任务上表现出色,但视频事件预测(VEP)——根据观察到的视频预测未来事件——仍然严重不足。系统评测显示最强模型 Qwen3-VL 平均准确率仅 66.9%。

  2. 现有痛点: 通过对 MLLM 在 VEP 任务上的系统分析发现两大核心失败原因:(a) 缺乏逻辑推理能力——模型依赖文本选项匹配而非基于视频内容推理因果关系;(b) 视觉信息利用不足——注意力分析显示视觉 token 的注意力权重远低于文本 token,模型本质上在"读选项"而不是"看视频"。

  3. 核心矛盾: VEP 要求从可见内容推断不可见的未来事件,需要建立视频内容到未来事件的因果链条,但现有模型的推理过程只是"总结视频→分析选项→选最相关的",缺少视频证据到未来事件的逻辑推导。

  4. 切入角度: 已有工作表明时序事件建模对预测至关重要,但直接用 prompt 引导更多视觉注意或给注意力加常数偏置都会导致性能下降。需要训练级别的方法让模型内化这种推理模式。

  5. 核心 idea: 构造时序事件链(Chain of Events)建立细粒度历史表示,迫使模型关注视觉内容并建立观察→未来的因果推理链。

方法详解

整体框架

两阶段训练方案: - 输入:视频 \(V\) + 问题 \(Q\) - Stage 1 (CoE-SFT):用 72B 大模型合成推理数据,教模型建立"视频内容→未来事件"的逻辑推理能力 - Stage 2 (CoE-GRPO):强化学习训练模型构造细粒度时序事件链 \(EC = [E_1, E_2, \dots, E_n]\),每个事件 \(E = (\mathcal{T}, \mathcal{D})\) 包含时间戳和描述 - 预测过程:\(P = P(\hat{E} | V, Q, \mathcal{R}', EC)\),联合事件链和推理结果预测未来

关键设计

  1. CoE-SFT(逻辑推理蒸馏):

    • 做什么:用 Qwen2.5-VL-72B 生成视频→未来事件的逻辑推理过程数据
    • 核心思路:给大模型提供视频、问题和正确答案,让它生成连接两者的推理链条(而非分析选项)。人工质检通过率 >90%
    • 设计动机:传统 SFT 数据是"分析选项"模式,无法建立真正的因果推理。本级段用小规模高质量数据(非 30K 次的暴力堆积),focus 在推理质量
  2. CoE-GRPO(时序事件链构造):

    • 做什么:用强化学习训练模型构造带时间戳的事件链
    • 核心思路:引入 <event> 标签标记每个事件的时间范围和描述。设计三组奖励信号联合优化:
    • \(r_e\)(事件奖励): \(r_e^{(i)} = \lambda I(o_i) + (1-\lambda)[L - |len(o_i) - L| + b]\),控制格式正确性 + 事件链长度
    • \(r_s\)(一致性奖励): 按时间戳裁剪视频片段,计算事件描述与视频片段的跨模态余弦相似度均值,防止模型编造与视频不匹配的事件
    • \(r_a\)(准确率奖励): 最终预测的正确性
  3. 最终奖励:\(r_i = \alpha r_a^{(i)} + \beta r_e^{(i)} + (1-\alpha-\beta) r_s^{(i)}\)
  4. 设计动机:不需要额外标注数据,利用模型自身能力+可验证奖励来学习事件链构造

  5. 反作弊机制:

    • 做什么:防止模型通过 reward hacking 获取高分
    • 核心思路:\(r_s\) 通过裁剪视频片段+相似度模型验证事件描述与实际视频内容的对齐,模型不能凭空编造时间戳或描述来获取高 \(r_e\) 分数
    • 设计动机:纯格式奖励容易被 hack(例如总是输出固定长度的随机事件链),需要内容级别的验证

训练策略

  • 基础模型:Qwen2.5-VL-3B/7B
  • GRPO 配置:Group size \(G=4\),KL 系数 0.04,学习率 \(1e-6\),训练 150 步
  • 视频帧数限制 32 帧,分辨率 \(128 \times 28 \times 28\)

实验关键数据

主实验 (FutureBench)

模型 方法 1-Hop 2-Hop 3-Hop Interp. AVG
Qwen2.5-VL-72B Vanilla 55.5 68.4 63.7 53.2 58.33
GPT-5 Vanilla 59.6 57.3 62.6 55.6 57.92
Qwen3-VL-30B Vanilla 65.3 70.5 76.1 62.2 66.86
Qwen2.5-VL-3B CoE-GRPO 71.1 73.6 69.7 64.6 68.28
Qwen2.5-VL-7B NEP-GRPO 66.2 69.9 63.7 68.1 67.28
Qwen2.5-VL-7B CoE-GRPO 80.9 83.9 71.6 71.4 75.00

3B 模型 CoE-GRPO (68.28) 超越 72B 基线 (58.33) 和 GPT-5 (57.92),7B 模型达到 75.0%。

视觉注意力提升

方法 WR (注意力增加样本比例) ↑ IR (注意力增幅%) ↑
SFT 0.32 -3.33%
CoT Prompt 0.44 +1.08%
GRPO 0.59 +1.47%
CoE-GRPO 0.77 +9.20%
CoE-SFT 0.93 +15.11%

CoE-SFT 在 93% 的样本上提升了视觉 token 注意力,增幅达 15.11%。

消融实验

配置 AVG
Prompt 引导 45.74
注意力常数偏置 52.57
CoE (Ours) 75.00
G=2 60.61
G=4 74.61
G=8 77.20

直接 prompt 或注意力偏置不仅无效甚至有害,只有通过训练改变推理模式才有效。

亮点与洞察

  • 小模型超大模型的范式: 3B CoE-GRPO 超越 72B 和 GPT-5,说明 VEP 的核心不在模型规模而在推理方式——教模型"怎么想"比堆参数重要
  • RL 奖励设计精巧: 三组奖励(格式/一致性/准确率)互相制约——\(r_e\) 确保格式、\(r_s\) 防止编造、\(r_a\) 导向正确答案,形成自洽的训练信号
  • 可迁移的 CoE 思路: 事件链建模思路可迁移到其他需要时序推理的任务(如行车场景预判、手术视频预测),核心是把"直接预测"改为"先建链再推理"

局限性 / 可改进方向

  • 事件链长度 \(L\) 需要手动设定(实验发现 \(L=5\) 最优),不同视频的最佳事件数量可能不同,可探索自适应长度
  • \(r_s\) 使用的相似度模型(CLIP variant)本身有局限,对细粒度时序动作描述可能不够敏感
  • 仅在 FutureBench 和 AVEP 两个基准上验证,缺少真实场景(如自动驾驶危险预警)的评测
  • CoE-SFT 数据由 72B 模型生成,推理质量受限于教师模型能力的上限

评分

  • 新颖性: ⭐⭐⭐⭐ CoE 范式本身不新(事件链建模有较长历史),但在 VLM + GRPO 框架下的实现是新的
  • 实验充分度: ⭐⭐⭐⭐⭐ 系统性评测+注意力分析+消融+Judge 评估,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 问题分析清晰,方法动机链条完整
  • 价值: ⭐⭐⭐⭐ 为 VEP 提供了目前最强的解决方案,3B>72B 的结果有说服力