Video-CoE: Reinforcing Video Event Prediction via Chain of Events¶
日期: 2026-03-16
arXiv: 2603.14935
代码: 即将发布
领域: 多模态/VLM / 视频理解
关键词: 视频事件预测, Chain of Events, GRPO, 时序建模, 视觉注意力
一句话总结¶
提出 Chain of Events (CoE) 范式,通过构造时序事件链实现细粒度历史事件建模,用两阶段训练(CoE-SFT 建立逻辑推理 + CoE-GRPO 解锁时序定位),在 FutureBench 上 3B 模型超越 72B 基线和 GPT-5,7B 模型达到 75.0% 平均准确率。
研究背景与动机¶
-
领域现状: MLLM 在视频理解/推理任务上表现出色,但视频事件预测(VEP)——根据观察到的视频预测未来事件——仍然严重不足。系统评测显示最强模型 Qwen3-VL 平均准确率仅 66.9%。
-
现有痛点: 通过对 MLLM 在 VEP 任务上的系统分析发现两大核心失败原因:(a) 缺乏逻辑推理能力——模型依赖文本选项匹配而非基于视频内容推理因果关系;(b) 视觉信息利用不足——注意力分析显示视觉 token 的注意力权重远低于文本 token,模型本质上在"读选项"而不是"看视频"。
-
核心矛盾: VEP 要求从可见内容推断不可见的未来事件,需要建立视频内容到未来事件的因果链条,但现有模型的推理过程只是"总结视频→分析选项→选最相关的",缺少视频证据到未来事件的逻辑推导。
-
切入角度: 已有工作表明时序事件建模对预测至关重要,但直接用 prompt 引导更多视觉注意或给注意力加常数偏置都会导致性能下降。需要训练级别的方法让模型内化这种推理模式。
-
核心 idea: 构造时序事件链(Chain of Events)建立细粒度历史表示,迫使模型关注视觉内容并建立观察→未来的因果推理链。
方法详解¶
整体框架¶
两阶段训练方案: - 输入:视频 \(V\) + 问题 \(Q\) - Stage 1 (CoE-SFT):用 72B 大模型合成推理数据,教模型建立"视频内容→未来事件"的逻辑推理能力 - Stage 2 (CoE-GRPO):强化学习训练模型构造细粒度时序事件链 \(EC = [E_1, E_2, \dots, E_n]\),每个事件 \(E = (\mathcal{T}, \mathcal{D})\) 包含时间戳和描述 - 预测过程:\(P = P(\hat{E} | V, Q, \mathcal{R}', EC)\),联合事件链和推理结果预测未来
关键设计¶
-
CoE-SFT(逻辑推理蒸馏):
- 做什么:用 Qwen2.5-VL-72B 生成视频→未来事件的逻辑推理过程数据
- 核心思路:给大模型提供视频、问题和正确答案,让它生成连接两者的推理链条(而非分析选项)。人工质检通过率 >90%
- 设计动机:传统 SFT 数据是"分析选项"模式,无法建立真正的因果推理。本级段用小规模高质量数据(非 30K 次的暴力堆积),focus 在推理质量
-
CoE-GRPO(时序事件链构造):
- 做什么:用强化学习训练模型构造带时间戳的事件链
- 核心思路:引入
<event>标签标记每个事件的时间范围和描述。设计三组奖励信号联合优化: - \(r_e\)(事件奖励): \(r_e^{(i)} = \lambda I(o_i) + (1-\lambda)[L - |len(o_i) - L| + b]\),控制格式正确性 + 事件链长度
- \(r_s\)(一致性奖励): 按时间戳裁剪视频片段,计算事件描述与视频片段的跨模态余弦相似度均值,防止模型编造与视频不匹配的事件
- \(r_a\)(准确率奖励): 最终预测的正确性
- 最终奖励:\(r_i = \alpha r_a^{(i)} + \beta r_e^{(i)} + (1-\alpha-\beta) r_s^{(i)}\)
-
设计动机:不需要额外标注数据,利用模型自身能力+可验证奖励来学习事件链构造
-
反作弊机制:
- 做什么:防止模型通过 reward hacking 获取高分
- 核心思路:\(r_s\) 通过裁剪视频片段+相似度模型验证事件描述与实际视频内容的对齐,模型不能凭空编造时间戳或描述来获取高 \(r_e\) 分数
- 设计动机:纯格式奖励容易被 hack(例如总是输出固定长度的随机事件链),需要内容级别的验证
训练策略¶
- 基础模型:Qwen2.5-VL-3B/7B
- GRPO 配置:Group size \(G=4\),KL 系数 0.04,学习率 \(1e-6\),训练 150 步
- 视频帧数限制 32 帧,分辨率 \(128 \times 28 \times 28\)
实验关键数据¶
主实验 (FutureBench)¶
| 模型 | 方法 | 1-Hop | 2-Hop | 3-Hop | Interp. | AVG |
|---|---|---|---|---|---|---|
| Qwen2.5-VL-72B | Vanilla | 55.5 | 68.4 | 63.7 | 53.2 | 58.33 |
| GPT-5 | Vanilla | 59.6 | 57.3 | 62.6 | 55.6 | 57.92 |
| Qwen3-VL-30B | Vanilla | 65.3 | 70.5 | 76.1 | 62.2 | 66.86 |
| Qwen2.5-VL-3B | CoE-GRPO | 71.1 | 73.6 | 69.7 | 64.6 | 68.28 |
| Qwen2.5-VL-7B | NEP-GRPO | 66.2 | 69.9 | 63.7 | 68.1 | 67.28 |
| Qwen2.5-VL-7B | CoE-GRPO | 80.9 | 83.9 | 71.6 | 71.4 | 75.00 |
3B 模型 CoE-GRPO (68.28) 超越 72B 基线 (58.33) 和 GPT-5 (57.92),7B 模型达到 75.0%。
视觉注意力提升¶
| 方法 | WR (注意力增加样本比例) ↑ | IR (注意力增幅%) ↑ |
|---|---|---|
| SFT | 0.32 | -3.33% |
| CoT Prompt | 0.44 | +1.08% |
| GRPO | 0.59 | +1.47% |
| CoE-GRPO | 0.77 | +9.20% |
| CoE-SFT | 0.93 | +15.11% |
CoE-SFT 在 93% 的样本上提升了视觉 token 注意力,增幅达 15.11%。
消融实验¶
| 配置 | AVG |
|---|---|
| Prompt 引导 | 45.74 |
| 注意力常数偏置 | 52.57 |
| CoE (Ours) | 75.00 |
| G=2 | 60.61 |
| G=4 | 74.61 |
| G=8 | 77.20 |
直接 prompt 或注意力偏置不仅无效甚至有害,只有通过训练改变推理模式才有效。
亮点与洞察¶
- 小模型超大模型的范式: 3B CoE-GRPO 超越 72B 和 GPT-5,说明 VEP 的核心不在模型规模而在推理方式——教模型"怎么想"比堆参数重要
- RL 奖励设计精巧: 三组奖励(格式/一致性/准确率)互相制约——\(r_e\) 确保格式、\(r_s\) 防止编造、\(r_a\) 导向正确答案,形成自洽的训练信号
- 可迁移的 CoE 思路: 事件链建模思路可迁移到其他需要时序推理的任务(如行车场景预判、手术视频预测),核心是把"直接预测"改为"先建链再推理"
局限性 / 可改进方向¶
- 事件链长度 \(L\) 需要手动设定(实验发现 \(L=5\) 最优),不同视频的最佳事件数量可能不同,可探索自适应长度
- \(r_s\) 使用的相似度模型(CLIP variant)本身有局限,对细粒度时序动作描述可能不够敏感
- 仅在 FutureBench 和 AVEP 两个基准上验证,缺少真实场景(如自动驾驶危险预警)的评测
- CoE-SFT 数据由 72B 模型生成,推理质量受限于教师模型能力的上限
评分¶
- 新颖性: ⭐⭐⭐⭐ CoE 范式本身不新(事件链建模有较长历史),但在 VLM + GRPO 框架下的实现是新的
- 实验充分度: ⭐⭐⭐⭐⭐ 系统性评测+注意力分析+消融+Judge 评估,覆盖全面
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,方法动机链条完整
- 价值: ⭐⭐⭐⭐ 为 VEP 提供了目前最强的解决方案,3B>72B 的结果有说服力