Video-CoE: Reinforcing Video Event Prediction via Chain of Events¶

日期: 2026-03-16
arXiv: 2603.14935
代码: 即将发布
领域: 多模态/VLM / 视频理解
关键词: 视频事件预测, Chain of Events, GRPO, 时序建模, 视觉注意力

一句话总结¶

提出 Chain of Events (CoE) 范式，通过构造时序事件链实现细粒度历史事件建模，用两阶段训练（CoE-SFT 建立逻辑推理 + CoE-GRPO 解锁时序定位），在 FutureBench 上 3B 模型超越 72B 基线和 GPT-5，7B 模型达到 75.0% 平均准确率。

研究背景与动机¶

领域现状: MLLM 在视频理解/推理任务上表现出色，但视频事件预测（VEP）——根据观察到的视频预测未来事件——仍然严重不足。系统评测显示最强模型 Qwen3-VL 平均准确率仅 66.9%。
现有痛点: 通过对 MLLM 在 VEP 任务上的系统分析发现两大核心失败原因：(a) 缺乏逻辑推理能力——模型依赖文本选项匹配而非基于视频内容推理因果关系；(b) 视觉信息利用不足——注意力分析显示视觉 token 的注意力权重远低于文本 token，模型本质上在"读选项"而不是"看视频"。
核心矛盾: VEP 要求从可见内容推断不可见的未来事件，需要建立视频内容到未来事件的因果链条，但现有模型的推理过程只是"总结视频→分析选项→选最相关的"，缺少视频证据到未来事件的逻辑推导。
切入角度: 已有工作表明时序事件建模对预测至关重要，但直接用 prompt 引导更多视觉注意或给注意力加常数偏置都会导致性能下降。需要训练级别的方法让模型内化这种推理模式。
核心 idea: 构造时序事件链（Chain of Events）建立细粒度历史表示，迫使模型关注视觉内容并建立观察→未来的因果推理链。

方法详解¶

整体框架¶

两阶段训练方案： - 输入：视频 \(V\) + 问题 \(Q\) - Stage 1 (CoE-SFT)：用 72B 大模型合成推理数据，教模型建立"视频内容→未来事件"的逻辑推理能力 - Stage 2 (CoE-GRPO)：强化学习训练模型构造细粒度时序事件链 \(EC = [E_1, E_2, \dots, E_n]\)，每个事件 \(E = (\mathcal{T}, \mathcal{D})\) 包含时间戳和描述 - 预测过程：\(P = P(\hat{E} | V, Q, \mathcal{R}', EC)\)，联合事件链和推理结果预测未来

关键设计¶

CoE-SFT（逻辑推理蒸馏）:
- 做什么：用 Qwen2.5-VL-72B 生成视频→未来事件的逻辑推理过程数据
- 核心思路：给大模型提供视频、问题和正确答案，让它生成连接两者的推理链条（而非分析选项）。人工质检通过率 >90%
- 设计动机：传统 SFT 数据是"分析选项"模式，无法建立真正的因果推理。本级段用小规模高质量数据（非 30K 次的暴力堆积），focus 在推理质量
CoE-GRPO（时序事件链构造）:
- 做什么：用强化学习训练模型构造带时间戳的事件链
- 核心思路：引入 <event> 标签标记每个事件的时间范围和描述。设计三组奖励信号联合优化：
- \(r_e\)（事件奖励）: \(r_e^{(i)} = \lambda I(o_i) + (1-\lambda)[L - |len(o_i) - L| + b]\)，控制格式正确性 + 事件链长度
- \(r_s\)（一致性奖励）: 按时间戳裁剪视频片段，计算事件描述与视频片段的跨模态余弦相似度均值，防止模型编造与视频不匹配的事件
- \(r_a\)（准确率奖励）: 最终预测的正确性
最终奖励：\(r_i = \alpha r_a^{(i)} + \beta r_e^{(i)} + (1-\alpha-\beta) r_s^{(i)}\)
设计动机：不需要额外标注数据，利用模型自身能力+可验证奖励来学习事件链构造
反作弊机制:
- 做什么：防止模型通过 reward hacking 获取高分
- 核心思路：\(r_s\) 通过裁剪视频片段+相似度模型验证事件描述与实际视频内容的对齐，模型不能凭空编造时间戳或描述来获取高 \(r_e\) 分数
- 设计动机：纯格式奖励容易被 hack（例如总是输出固定长度的随机事件链），需要内容级别的验证

训练策略¶

基础模型：Qwen2.5-VL-3B/7B
GRPO 配置：Group size \(G=4\)，KL 系数 0.04，学习率 \(1e-6\)，训练 150 步
视频帧数限制 32 帧，分辨率 \(128 \times 28 \times 28\)

实验关键数据¶

主实验 (FutureBench)¶

模型	方法	1-Hop	2-Hop	3-Hop	Interp.	AVG
Qwen2.5-VL-72B	Vanilla	55.5	68.4	63.7	53.2	58.33
GPT-5	Vanilla	59.6	57.3	62.6	55.6	57.92
Qwen3-VL-30B	Vanilla	65.3	70.5	76.1	62.2	66.86
Qwen2.5-VL-3B	CoE-GRPO	71.1	73.6	69.7	64.6	68.28
Qwen2.5-VL-7B	NEP-GRPO	66.2	69.9	63.7	68.1	67.28
Qwen2.5-VL-7B	CoE-GRPO	80.9	83.9	71.6	71.4	75.00

3B 模型 CoE-GRPO (68.28) 超越 72B 基线 (58.33) 和 GPT-5 (57.92)，7B 模型达到 75.0%。

视觉注意力提升¶

方法	WR (注意力增加样本比例) ↑	IR (注意力增幅%) ↑
SFT	0.32	-3.33%
CoT Prompt	0.44	+1.08%
GRPO	0.59	+1.47%
CoE-GRPO	0.77	+9.20%
CoE-SFT	0.93	+15.11%

CoE-SFT 在 93% 的样本上提升了视觉 token 注意力，增幅达 15.11%。

消融实验¶

配置	AVG
Prompt 引导	45.74
注意力常数偏置	52.57
CoE (Ours)	75.00
G=2	60.61
G=4	74.61
G=8	77.20

直接 prompt 或注意力偏置不仅无效甚至有害，只有通过训练改变推理模式才有效。

亮点与洞察¶

小模型超大模型的范式: 3B CoE-GRPO 超越 72B 和 GPT-5，说明 VEP 的核心不在模型规模而在推理方式——教模型"怎么想"比堆参数重要
RL 奖励设计精巧: 三组奖励（格式/一致性/准确率）互相制约——\(r_e\) 确保格式、\(r_s\) 防止编造、\(r_a\) 导向正确答案，形成自洽的训练信号
可迁移的 CoE 思路: 事件链建模思路可迁移到其他需要时序推理的任务（如行车场景预判、手术视频预测），核心是把"直接预测"改为"先建链再推理"

局限性 / 可改进方向¶

事件链长度 \(L\) 需要手动设定（实验发现 \(L=5\) 最优），不同视频的最佳事件数量可能不同，可探索自适应长度
\(r_s\) 使用的相似度模型（CLIP variant）本身有局限，对细粒度时序动作描述可能不够敏感
仅在 FutureBench 和 AVEP 两个基准上验证，缺少真实场景（如自动驾驶危险预警）的评测
CoE-SFT 数据由 72B 模型生成，推理质量受限于教师模型能力的上限

评分¶

新颖性: ⭐⭐⭐⭐ CoE 范式本身不新（事件链建模有较长历史），但在 VLM + GRPO 框架下的实现是新的
实验充分度: ⭐⭐⭐⭐⭐ 系统性评测+注意力分析+消融+Judge 评估，覆盖全面
写作质量: ⭐⭐⭐⭐ 问题分析清晰，方法动机链条完整
价值: ⭐⭐⭐⭐ 为 VEP 提供了目前最强的解决方案，3B>72B 的结果有说服力