跳转至

Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events

会议: CVPR 2026
arXiv: 2603.06213
代码: GitHub
领域: 多模态VLM
关键词: 多模态摘要, 免训练, 事件链推理, 层次事件图, 跨域泛化

一句话总结

提出 CoE,一个免训练的多模态摘要框架,通过构建层次事件图(HEG)引导链式事件推理,在8个数据集上超越SOTA视频CoT基线,平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。

研究背景与动机

  1. 多模态摘要(MMS)的重要性:需要从视频、文本、图像等多源输入生成简洁文本摘要,应用于教学视频、讲座、新闻广播等场景。
  2. 领域特定监督的依赖问题:现有 MMS 模型(如 MLASK、MMSum)依赖大规模配对数据和领域特定微调,跨域泛化能力差。实验显示在 VIEWS 上训练后迁移到其他数据集性能大幅下降。
  3. 隐式融合与弱跨模态对齐:现有方法多在隐空间进行隐式融合,缺乏对视觉-文本对应关系的显式推理,导致语义漂移。
  4. 扁平化时序建模:视频CoT模型将视频视为帧/片段的平坦序列,缺乏对层次事件和因果转换的显式建模,难以捕捉全局事件演化。
  5. MLLM 的潜力:多模态大语言模型为视频理解带来突破,但直接应用于长视频摘要仍面临上述挑战。
  6. 核心思路:用显式的层次事件建模替代隐式整体融合,实现可解释、免训练、跨域鲁棒的摘要。

方法详解

整体框架

CoE 包含四个模块:(1) 层次事件图(HEG)构建 → (2) 跨模态空间定位(CSG)→ (3) 事件演化推理(EER)→ (4) 领域自适应摘要生成(DSG)。

关键设计

层次事件图(HEG)构建

三层结构:全局事件层(整体主题)→ 子事件层(分解为 \(K\) 个连贯组件)→ 实体-关系层(建模关键实体及交互)。通过 LLM 从文本中自动抽取。

跨模态空间定位(CSG)

均匀采样视频帧分为短片段 \(\{C_j\}\),以 HEG 子事件节点为语义锚点,将每个片段对齐到最相关的子事件。然后在每个片段中识别视觉支持的实体关系三元组,构建视觉定位子图 \(\mathcal{G}_k^{(j)}\)

事件演化推理(EER)

合并同一子事件下子图一致的相邻片段为更长的时间段。对比相邻段的子图变化(新增/持续/消失的实体关系),推导事件轨迹描述 \(\mathcal{D}_p\),捕捉叙事演化。

领域自适应摘要生成(DSG)

将事件轨迹合成初始摘要 \(\hat{s}_{\text{init}}\),再利用少量目标领域参考摘要 \(\mathcal{Y}_{\text{ref}}\) 进行轻量级风格适配,调整语气和修辞结构。

损失函数

无训练框架,无需损失函数。全程通过 VLM/LLM 的 prompt 驱动。

实验关键数据

主实验:8个数据集平均性能

方法 ROUGE↑ CIDEr↑ BERTScore↑
TCoT baseline baseline baseline
CoF +0.5 +2.1 +0.3
ViTCoT +1.2 +4.5 +0.9
CoS +1.8 +5.2 +1.1
CoE (Ours) +3.04 +9.51 +1.88

消融实验

模块 提升贡献
HEG构建 提供结构化语义骨架
CSG跨模态定位 视觉-文本精细对齐
EER事件演化 时序连贯性建模
DSG风格适配 跨域语言风格对齐

关键发现

  • CoE 在零样本设置下跨8个领域保持稳定性能,而监督方法跨域严重退化
  • 每个模块贡献独立且互补
  • 不同 MLLM 骨干(如 GPT-4o、Gemini 等)均一致有效
  • 参数规模增大带来稳定提升

亮点与洞察

  • 免训练设计使其具备极强的跨域泛化能力,解决了 MMS 领域长期存在的监督依赖问题
  • 层次事件图设计精巧,模拟人类从全局→子事件→实体关系的认知过程
  • 事件演化推理模块显式建模因果转换,超越了扁平化时序建模
  • 轻量级风格适配仅需少量参考即可对齐领域语言习惯

局限性

  • 依赖 MLLM 的质量(如 GPT-4o),推理成本较高
  • 视频帧采样策略可能遗漏关键内容
  • 风格适配需要少量目标领域参考摘要,并非完全零资源
  • HEG 构建质量受 LLM 抽取能力限制

相关工作与启发

  • 与 CoF、ViTCoT 等视频 CoT 方法相比,CoE 采用全局事件视角而非局部帧级推理
  • 与传统 MMS 方法(MLASK、MMSum)相比,CoE 不需要训练
  • 层次事件图想法可推广到视频理解、长文档摘要等任务

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐