Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events¶

会议: CVPR 2026
arXiv: 2603.06213
代码: GitHub
领域: 多模态VLM
关键词: 多模态摘要, 免训练, 事件链推理, 层次事件图, 跨域泛化

一句话总结¶

提出 CoE，一个免训练的多模态摘要框架，通过构建层次事件图（HEG）引导链式事件推理，在8个数据集上超越SOTA视频CoT基线，平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。

研究背景与动机¶

多模态摘要（MMS）的重要性：需要从视频、文本、图像等多源输入生成简洁文本摘要，应用于教学视频、讲座、新闻广播等场景。
领域特定监督的依赖问题：现有 MMS 模型（如 MLASK、MMSum）依赖大规模配对数据和领域特定微调，跨域泛化能力差。实验显示在 VIEWS 上训练后迁移到其他数据集性能大幅下降。
隐式融合与弱跨模态对齐：现有方法多在隐空间进行隐式融合，缺乏对视觉-文本对应关系的显式推理，导致语义漂移。
扁平化时序建模：视频CoT模型将视频视为帧/片段的平坦序列，缺乏对层次事件和因果转换的显式建模，难以捕捉全局事件演化。
MLLM 的潜力：多模态大语言模型为视频理解带来突破，但直接应用于长视频摘要仍面临上述挑战。
核心思路：用显式的层次事件建模替代隐式整体融合，实现可解释、免训练、跨域鲁棒的摘要。

方法详解¶

整体框架¶

CoE 包含四个模块：(1) 层次事件图（HEG）构建 → (2) 跨模态空间定位（CSG）→ (3) 事件演化推理（EER）→ (4) 领域自适应摘要生成（DSG）。

关键设计¶

层次事件图（HEG）构建¶

三层结构：全局事件层（整体主题）→ 子事件层（分解为 \(K\) 个连贯组件）→ 实体-关系层（建模关键实体及交互）。通过 LLM 从文本中自动抽取。

跨模态空间定位（CSG）¶

均匀采样视频帧分为短片段 \(\{C_j\}\)，以 HEG 子事件节点为语义锚点，将每个片段对齐到最相关的子事件。然后在每个片段中识别视觉支持的实体关系三元组，构建视觉定位子图 \(\mathcal{G}_k^{(j)}\)。

事件演化推理（EER）¶

合并同一子事件下子图一致的相邻片段为更长的时间段。对比相邻段的子图变化（新增/持续/消失的实体关系），推导事件轨迹描述 \(\mathcal{D}_p\)，捕捉叙事演化。

领域自适应摘要生成（DSG）¶

将事件轨迹合成初始摘要 \(\hat{s}_{\text{init}}\)，再利用少量目标领域参考摘要 \(\mathcal{Y}_{\text{ref}}\) 进行轻量级风格适配，调整语气和修辞结构。

损失函数¶

无训练框架，无需损失函数。全程通过 VLM/LLM 的 prompt 驱动。

实验关键数据¶

主实验：8个数据集平均性能¶

方法	ROUGE↑	CIDEr↑	BERTScore↑
TCoT	baseline	baseline	baseline
CoF	+0.5	+2.1	+0.3
ViTCoT	+1.2	+4.5	+0.9
CoS	+1.8	+5.2	+1.1
CoE (Ours)	+3.04	+9.51	+1.88

消融实验¶

模块	提升贡献
HEG构建	提供结构化语义骨架
CSG跨模态定位	视觉-文本精细对齐
EER事件演化	时序连贯性建模
DSG风格适配	跨域语言风格对齐

关键发现¶

CoE 在零样本设置下跨8个领域保持稳定性能，而监督方法跨域严重退化
每个模块贡献独立且互补
不同 MLLM 骨干（如 GPT-4o、Gemini 等）均一致有效
参数规模增大带来稳定提升

亮点与洞察¶

免训练设计使其具备极强的跨域泛化能力，解决了 MMS 领域长期存在的监督依赖问题
层次事件图设计精巧，模拟人类从全局→子事件→实体关系的认知过程
事件演化推理模块显式建模因果转换，超越了扁平化时序建模
轻量级风格适配仅需少量参考即可对齐领域语言习惯

局限性¶

依赖 MLLM 的质量（如 GPT-4o），推理成本较高
视频帧采样策略可能遗漏关键内容
风格适配需要少量目标领域参考摘要，并非完全零资源
HEG 构建质量受 LLM 抽取能力限制

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐