Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events¶
日期: 2026-03-06
arXiv: 2603.06213
代码: https://github.com/youxiaoxing/CoE
领域: 多模态/VLM
关键词: multimodal summarization, chain-of-events, hierarchical event graph, training-free, cross-modal grounding
一句话总结¶
提出 CoE(Chain-of-Events),一个无需训练的多模态摘要框架,通过构建层次化事件图(HEG)实现结构化跨模态推理,在 8 个数据集上平均超越 SOTA 视频 CoT 方法 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。
研究背景与动机¶
- 领域现状: 多模态摘要(MMS)从视频、文本等多源输入生成简洁文本摘要,广泛应用于新闻、教学、体育等领域。现有方法多采用编码-融合-解码框架(如 MLASK、MMSum)。
- 现有痛点:
- (1) 依赖领域特定监督:模型在域外泛化时性能大幅下降
- (2) 隐式融合导致弱跨模态对齐:潜空间融合缺乏显式推理
- (3) 扁平化时间建模:缺少层次事件和因果转换建模,难以维持长视频叙事连贯性
- 核心矛盾: 视频 CoT 方法在短程推理上表现好,但将视频视为帧序列的扁平处理方式无法捕获全局事件演化和长程叙事结构。
- 切入角度: 用显式的层次事件建模替代隐式特征融合,构建 HEG 作为语义骨架指导跨模态推理。
- 核心idea一句话: 从文本构建"全局事件→子事件→实体关系" 三层图结构,引导视频的空间对齐和时间演化推理,无需训练即可生成连贯领域自适应摘要。
方法详解¶
整体框架¶
CoE 由四个模块组成: 1. HEG 构建 → 2. 跨模态空间对齐 (CSG) → 3. 事件演化推理 (EER) → 4. 领域自适应摘要生成 (DSG)
输入为视频 \(\mathbf{V} = (v_1, \cdots, v_N)\) 和文本 \(\mathbf{T} = (t_1, \cdots, t_M)\),输出文本摘要 \(\hat{s} = f(\mathbf{V}, \mathbf{T})\)。
关键设计¶
-
层次化事件图 (HEG) 构建:
- 三层结构:全局事件层 → 子事件层 → 实体关系层
- 从输入文本提取全局事件 \(g\),分解为 \(K\) 个子事件 \(\mathcal{H} = \{h_k\}_{k=1}^K\)
- 每个子事件提取实体集 \(\mathcal{E}_k\) 和关系集 \(\mathcal{R}_k\),形成子图 \(\mathcal{G}_k\)
- 共享实体连接子事件形成统一层次图,作为后续推理的语义骨架
-
跨模态空间对齐 (CSG):
- 均匀采样 \(N\) 帧,分割为短视频片段 \(\{C_j\}_{j=1}^J\)
- 以 HEG 子事件节点为语义锚点,将每个片段对齐到最相关子事件
- VLM 为每个片段提取视觉支持的实体关系三元组,构建视觉接地子图 \(\mathcal{G}_k^{(j)}\)
-
事件演化推理 (EER):
- 相邻片段若属同一子事件且子图相同则合并为更长时间段
- 分析相邻段间子图变化:检测新增/持续/消失的实体和关系
- 生成事件轨迹描述 \(\mathcal{D}_p\),捕获叙事如何随时间演化
-
领域自适应摘要生成 (DSG):
- 从事件轨迹合成初始摘要 \(\hat{s}_{init}\)
- 使用 \(R=5\) 个目标领域参考摘要 \(\mathcal{Y}_{ref}\) 做风格适配
- 调整语气、措辞和话语结构以匹配目标领域惯例
损失函数 / 训练策略¶
- 完全无需训练,所有模块基于 VLM(默认 Qwen2.5-VL-7B-Instruct)的 zero-shot prompting
- 每视频均匀采样最多 72 帧,分为 12 个片段,每段最多 30 帧
- 风格适配仅需 5 个参考摘要,无需微调
实验关键数据¶
主实验(ROUGE 分数)¶
| 方法 | VIEWS | MM-AVS | XMSMO | TIB | VISTA | BLiSS | SoccerNet | Summ |
|---|---|---|---|---|---|---|---|---|
| TCoT | 10.74 | 15.98 | 15.32 | 11.37 | 13.85 | 11.86 | 4.12 | 8.66 |
| CoF | 16.86 | 14.17 | 8.64 | 12.36 | 14.20 | 12.38 | 8.06 | 6.86 |
| ViTCoT | 18.21 | 15.88 | 13.41 | 12.18 | 15.11 | 10.39 | 13.94 | 9.10 |
| CoS | 18.73 | 16.18 | 7.12 | 13.29 | 15.28 | 9.51 | 11.94 | 11.88 |
| CoE | 19.28 | 19.53 | 21.28 | 13.75 | 17.00 | 10.83 | 23.50 | 16.15 |
消融实验(ROUGE / CIDEr)¶
| 变体 | VIEWS | MM-AVS | XMSMO | Summ |
|---|---|---|---|---|
| CoE – HEG | 18.68 / 17.20 | 16.68 / 17.01 | 19.82 / 44.09 | 16.25 / 1.89 |
| CoE – CSG | 18.56 / 17.78 | 16.35 / 16.27 | 20.79 / 40.47 | 16.20 / 3.91 |
| CoE – EER | 18.66 / 18.54 | 19.44 / 13.83 | 20.88 / 43.58 | 15.90 / 4.54 |
| CoE – DSG | 18.76 / 9.23 | 18.70 / 12.85 | 21.17 / 40.56 | 15.67 / 2.14 |
| CoE (full) | 19.28 / 19.73 | 19.53 / 17.89 | 21.28 / 56.55 | 16.15 / 4.72 |
关键发现¶
- CoE 在 8 个数据集的大多数指标上取得 SOTA,平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore
- 实体 F1 分数上优势最明显:SoccerNet 上 63.37 vs. CoS 的 31.45(+31.92)
- HEG 是性能贡献最大的模块,移除后 CIDEr 在 XMSMO 上下降 12.46
- DSG 风格适配对 CIDEr 影响显著(VIEWS -10.50,XMSMO -15.99)
- 框架对 backbone 不敏感:LLaVA-Next、InternVL2.5、Qwen2.5-VL 均有稳定增益
- 模型规模从 3B→7B→32B→GPT-5 性能持续提升
亮点与洞察¶
- 事件中心的推理范式: 用结构化事件图替代隐式融合,提供可解释的摘要生成过程
- 完全无训练: 纯靠 VLM prompting 实现,跨域泛化能力远超有监督方法(如 MLASK、MMSum 域外严重退化)
- 层次化设计的每层都有贡献: 消融实验证实 HEG/CSG/EER/DSG 各自提供不同维度的增益
- 实体追踪能力: HEG 的实体关系层支持细粒度实体追踪,F1 大幅领先
局限性 / 可改进方向¶
- 依赖 VLM 的 prompting 质量,对 VLM 幻觉敏感
- 风格适配需要 5 个目标域参考摘要,严格的零资源场景受限
- HEG 构建依赖 LLM 的文本理解能力,复杂叙事可能提取不准
- 推理效率未详细报告,多阶段 VLM 调用可能较慢
- 未探索多模态输出(图文联合摘要、关键帧选取)
相关工作与启发¶
- MLASK / MMSum: 监督融合型 MMS 方法,域内强但泛化差
- ViTCoT: 交错视觉文本的 CoT 推理,但缺乏全局事件建模
- CoF: 将推理步骤锚定到帧 ID,时间可解释性好但局限于局部
- TCoT: 迭代选择问题相关帧,适合长视频但无事件层次
- CoS: 对比 shot 级推理,突出显著内容但仍是扁平建模
评分¶
- ⭐⭐⭐⭐ 新颖性:层次事件图驱动的无训练推理是新颖的 MMS 范式
- ⭐⭐⭐⭐⭐ 有效性:8 个数据集全面领先,消融完整,backbone 泛化验证充分
- ⭐⭐⭐⭐ 实用性:无需训练、跨域泛化强、代码开源
- ⭐⭐⭐⭐ 写作:结构清晰,实验全面,case study 直观