跳转至

Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models

会议: CVPR2026
arXiv: 2512.21778
代码: 无
领域: 多模态VLM
关键词: 视频场景分割, 视觉语言模型, 多模态推理, 序列预测, 置信度估计

一句话总结

提出 Scene-VLM——首个基于微调 VLM 的视频场景分割框架,通过结构化多模态镜头表征(视觉帧+对白+元数据)、因果序列预测、上下文-焦点窗口机制和 token logits 置信度提取,在 MovieNet 上取得 +6 AP 和 +13.7 F1 的大幅提升,并展示了自然语言解释能力。

研究背景与动机

视频场景分割(将长视频切分为语义连贯的场景)是视频理解的基础任务,对自动化结构化摘要、语义检索等应用至关重要。形式上,场景由共享位置、时间、角色或叙事主题的连续镜头组成。

现有编码器方法(BaSSL、TranS4mer、MEGA)的三大局限:(1) 视觉偏重:忽视或低利用对白、角色等非视觉信号;(2) 逐点独立预测:每个镜头独立分类,未利用连续决策间的因果依赖;(3) 无可解释性:仅输出置信度分数,无法解释为什么预测为边界。

核心 idea:利用 VLM 的多模态推理+文本生成能力,将场景分割重新定义为按序输出"Shot i: Yes/No"的序列生成任务,自然实现因果依赖、多模态融合和可解释性。

方法详解

整体框架

Scene-VLM 基于 Qwen2.5-VL-7B 微调,输入为 \(N\) 个连续镜头的多模态表征(视觉帧+对白+角色ID),输出为焦点窗口内每个镜头的场景边界判定(Yes/No),通过 token logits 提取置信度分数。

关键设计

  1. 结构化多模态镜头表征:每个镜头 \(s_i\)\(K=3\) 个采样帧、同步字幕、角色信息组成。每帧叠加视觉标识符(shot-ID marker)帮助模型关联视觉内容与文本中的镜头引用。这种设计提供了以视觉为中心方法无法获取的叙事上下文。

  2. 因果序列预测:将场景分割从独立分类转化为序列生成——模型按顺序对多个镜头输出"Shot i: Yes/No",每个边界决策因果地影响后续决策。这使模型能利用之前的预测作为上下文。注意力分析表明模型确实"信任"之前的预测,对已处理镜头分配更少注意力,更关注后续镜头。

  3. 上下文-焦点窗口机制:使用 20 个镜头的上下文窗口,仅对中央 10 个镜头(焦点窗口)进行预测。这种设计确保每个被评估镜头都有充足的过去和未来证据,消除了序列边缘的性能退化问题(实验显示无焦点机制时边缘位置 F1 急剧下降)。

  4. VLM 置信度提取:VLM 不像编码器有分类头可直接输出分数。Scene-VLM 提取判定 token 位置的 softmax logits:\(\text{conf}_i = P(\text{Yes}) / (P(\text{Yes}) + P(\text{No}))\),实现了可控的精确率-召回率权衡。

  5. 可解释性对齐:通过在少量标注解释样本上的定向微调,模型可生成连贯的自然语言解释(如"场景从室内转到室外,角色和叙事话题都发生了变化"),这是编码器方法无法实现的。

损失函数 / 训练策略

  • 标准 next-token prediction loss
  • 基座模型:Qwen2.5-VL-7B
  • 训练数据:MovieNet-318(190 部电影用于训练)

实验关键数据

主实验(MovieNet-318)

方法 F1 ↑ AP ↑
BaSSL 47.0 57.4
TranS4mer 48.4 60.8
MEGA 55.3 58.6
Chapter-LLaMA 38.6 41.5
Scene-VLM 62.1 66.8

零样本跨域(BBC Planet Earth)

方法 AP ↑
TranS4mer 43.6
Scene-VLM 45.8

消融实验

配置 F1 AP 说明
完整模型 62.1 66.8 -
去掉视觉 32.0 34.7 视觉是核心信号
去掉 Shot-ID 60.8 64.1 时序锚定有价值
去掉字幕 61.1 62.2 字幕提供互补信号
仅视觉 58.6 61.4 多模态融合提升 3.5 F1
上下文20+焦点10 62.1 - 最优配置
上下文20+焦点1(逐点式) 60.1 - 序列预测优于逐点
上下文5+焦点5 55.8 - 更大上下文更好

模型规模影响

参数量 F1 AP
1.5B 55.9 58.7
3B 59.6 62.8
7B 62.1 66.8

关键发现

  • 视觉是最重要的信号源(去掉后 F1 暴跌 30 点),但字幕和角色 ID 提供了不可替代的补充
  • 注意力分析显示:长度归一化后,字幕和角色 token 的注意力与视觉 token 相当
  • 模型对后续镜头的注意力高于前序镜头——因为已通过输出 token 编码了前序信息
  • 焦点机制对边缘位置至关重要:无焦点时边缘 F1 急剧下降,有焦点时全位置一致
  • 从 1.5B 到 7B 持续单调提升,且 7B 提升仍然显著,暗示更大模型可能继续受益

亮点与洞察

  • 范式转换:从编码器分类框架转向 VLM 序列生成框架,一举解决了多模态融合、序列依赖和可解释性三个长期问题
  • 置信度提取技巧:从 Yes/No logits 计算归一化置信度的方法简单有效,为 VLM 应用于所有二分类任务提供了通用方案
  • 注意力分析深入:揭示了 VLM 在场景边界预测时的信息流动模式——信任历史预测+重点关注未来上下文
  • 零样本在 BBC 上的泛化表明框架不局限于电影领域

局限与展望

  • 每个镜头 3 帧的采样可能不足以捕捉镜内剧烈运动的场景
  • 20 个镜头的上下文窗口对超长电影可能不够——需要层次化或记忆增强的扩展
  • 推理速度可能慢于轻量编码器方法(论文未报告延迟)
  • 可解释性对齐需要人工标注解释样本,成本不可忽略

相关工作与启发

  • vs MEGA:MEGA 也融合字幕和剧本,但用固定融合策略+逐点预测;Scene-VLM 用 VLM 端到端推理更灵活
  • vs Chapter-LLaMA:基于 LLM 的分章方法,但仅用文本描述无直接视觉处理,在电影上 F1 仅 38.6
  • vs TranS4mer:用自注意力+SSM 建模长程依赖,但仍是编码器,无可解释性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将 VLM 应用于视频场景分割,范式创新解决了多个长期痛点
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融极其细致(模态、窗口、帧数、模型规模),注意力分析深入
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图示直观,从方法到分析的叙述逻辑完整
  • 价值: ⭐⭐⭐⭐ 为视频结构理解提供了新范式,置信度提取和可解释性设计有广泛迁移价值

相关论文