Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events¶
会议: CVPR 2026
arXiv: 2603.06213
代码: GitHub
领域: 多模态VLM
关键词: 多模态摘要, 免训练, 事件链推理, 层次事件图, 跨域泛化
一句话总结¶
提出 CoE,一个免训练的多模态摘要框架,通过构建层次事件图(HEG)引导链式事件推理,在8个数据集上超越SOTA视频CoT基线,平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。
研究背景与动机¶
- 多模态摘要(MMS)的重要性:需要从视频、文本、图像等多源输入生成简洁文本摘要,应用于教学视频、讲座、新闻广播等场景。
- 领域特定监督的依赖问题:现有 MMS 模型(如 MLASK、MMSum)依赖大规模配对数据和领域特定微调,跨域泛化能力差。实验显示在 VIEWS 上训练后迁移到其他数据集性能大幅下降。
- 隐式融合与弱跨模态对齐:现有方法多在隐空间进行隐式融合,缺乏对视觉-文本对应关系的显式推理,导致语义漂移。
- 扁平化时序建模:视频CoT模型将视频视为帧/片段的平坦序列,缺乏对层次事件和因果转换的显式建模,难以捕捉全局事件演化。
- MLLM 的潜力:多模态大语言模型为视频理解带来突破,但直接应用于长视频摘要仍面临上述挑战。
- 核心思路:用显式的层次事件建模替代隐式整体融合,实现可解释、免训练、跨域鲁棒的摘要。
方法详解¶
整体框架¶
CoE 包含四个模块:(1) 层次事件图(HEG)构建 → (2) 跨模态空间定位(CSG)→ (3) 事件演化推理(EER)→ (4) 领域自适应摘要生成(DSG)。
关键设计¶
层次事件图(HEG)构建¶
三层结构:全局事件层(整体主题)→ 子事件层(分解为 \(K\) 个连贯组件)→ 实体-关系层(建模关键实体及交互)。通过 LLM 从文本中自动抽取。
跨模态空间定位(CSG)¶
均匀采样视频帧分为短片段 \(\{C_j\}\),以 HEG 子事件节点为语义锚点,将每个片段对齐到最相关的子事件。然后在每个片段中识别视觉支持的实体关系三元组,构建视觉定位子图 \(\mathcal{G}_k^{(j)}\)。
事件演化推理(EER)¶
合并同一子事件下子图一致的相邻片段为更长的时间段。对比相邻段的子图变化(新增/持续/消失的实体关系),推导事件轨迹描述 \(\mathcal{D}_p\),捕捉叙事演化。
领域自适应摘要生成(DSG)¶
将事件轨迹合成初始摘要 \(\hat{s}_{\text{init}}\),再利用少量目标领域参考摘要 \(\mathcal{Y}_{\text{ref}}\) 进行轻量级风格适配,调整语气和修辞结构。
损失函数¶
无训练框架,无需损失函数。全程通过 VLM/LLM 的 prompt 驱动。
实验关键数据¶
主实验:8个数据集平均性能¶
| 方法 | ROUGE↑ | CIDEr↑ | BERTScore↑ |
|---|---|---|---|
| TCoT | baseline | baseline | baseline |
| CoF | +0.5 | +2.1 | +0.3 |
| ViTCoT | +1.2 | +4.5 | +0.9 |
| CoS | +1.8 | +5.2 | +1.1 |
| CoE (Ours) | +3.04 | +9.51 | +1.88 |
消融实验¶
| 模块 | 提升贡献 |
|---|---|
| HEG构建 | 提供结构化语义骨架 |
| CSG跨模态定位 | 视觉-文本精细对齐 |
| EER事件演化 | 时序连贯性建模 |
| DSG风格适配 | 跨域语言风格对齐 |
关键发现¶
- CoE 在零样本设置下跨8个领域保持稳定性能,而监督方法跨域严重退化
- 每个模块贡献独立且互补
- 不同 MLLM 骨干(如 GPT-4o、Gemini 等)均一致有效
- 参数规模增大带来稳定提升
亮点与洞察¶
- 免训练设计使其具备极强的跨域泛化能力,解决了 MMS 领域长期存在的监督依赖问题
- 层次事件图设计精巧,模拟人类从全局→子事件→实体关系的认知过程
- 事件演化推理模块显式建模因果转换,超越了扁平化时序建模
- 轻量级风格适配仅需少量参考即可对齐领域语言习惯
局限性¶
- 依赖 MLLM 的质量(如 GPT-4o),推理成本较高
- 视频帧采样策略可能遗漏关键内容
- 风格适配需要少量目标领域参考摘要,并非完全零资源
- HEG 构建质量受 LLM 抽取能力限制
相关工作与启发¶
- 与 CoF、ViTCoT 等视频 CoT 方法相比,CoE 采用全局事件视角而非局部帧级推理
- 与传统 MMS 方法(MLASK、MMSum)相比,CoE 不需要训练
- 层次事件图想法可推广到视频理解、长文档摘要等任务
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐