Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models¶

会议: CVPR2026
arXiv: 2512.21778
代码: 无
领域: 多模态VLM
关键词: 视频场景分割, 视觉语言模型, 多模态推理, 序列预测, 置信度估计

一句话总结¶

提出 Scene-VLM——首个基于微调 VLM 的视频场景分割框架，通过结构化多模态镜头表征（视觉帧+对白+元数据）、因果序列预测、上下文-焦点窗口机制和 token logits 置信度提取，在 MovieNet 上取得 +6 AP 和 +13.7 F1 的大幅提升，并展示了自然语言解释能力。

研究背景与动机¶

视频场景分割（将长视频切分为语义连贯的场景）是视频理解的基础任务，对自动化结构化摘要、语义检索等应用至关重要。形式上，场景由共享位置、时间、角色或叙事主题的连续镜头组成。

现有编码器方法（BaSSL、TranS4mer、MEGA）的三大局限：(1) 视觉偏重：忽视或低利用对白、角色等非视觉信号；(2) 逐点独立预测：每个镜头独立分类，未利用连续决策间的因果依赖；(3) 无可解释性：仅输出置信度分数，无法解释为什么预测为边界。

核心 idea：利用 VLM 的多模态推理+文本生成能力，将场景分割重新定义为按序输出"Shot i: Yes/No"的序列生成任务，自然实现因果依赖、多模态融合和可解释性。

方法详解¶

整体框架¶

Scene-VLM 基于 Qwen2.5-VL-7B 微调，输入为 \(N\) 个连续镜头的多模态表征（视觉帧+对白+角色ID），输出为焦点窗口内每个镜头的场景边界判定（Yes/No），通过 token logits 提取置信度分数。

关键设计¶

结构化多模态镜头表征：每个镜头 \(s_i\) 由 \(K=3\) 个采样帧、同步字幕、角色信息组成。每帧叠加视觉标识符（shot-ID marker）帮助模型关联视觉内容与文本中的镜头引用。这种设计提供了以视觉为中心方法无法获取的叙事上下文。
因果序列预测：将场景分割从独立分类转化为序列生成——模型按顺序对多个镜头输出"Shot i: Yes/No"，每个边界决策因果地影响后续决策。这使模型能利用之前的预测作为上下文。注意力分析表明模型确实"信任"之前的预测，对已处理镜头分配更少注意力，更关注后续镜头。
上下文-焦点窗口机制：使用 20 个镜头的上下文窗口，仅对中央 10 个镜头（焦点窗口）进行预测。这种设计确保每个被评估镜头都有充足的过去和未来证据，消除了序列边缘的性能退化问题（实验显示无焦点机制时边缘位置 F1 急剧下降）。
VLM 置信度提取：VLM 不像编码器有分类头可直接输出分数。Scene-VLM 提取判定 token 位置的 softmax logits：\(\text{conf}_i = P(\text{Yes}) / (P(\text{Yes}) + P(\text{No}))\)，实现了可控的精确率-召回率权衡。
可解释性对齐：通过在少量标注解释样本上的定向微调，模型可生成连贯的自然语言解释（如"场景从室内转到室外，角色和叙事话题都发生了变化"），这是编码器方法无法实现的。

损失函数 / 训练策略¶

标准 next-token prediction loss
基座模型：Qwen2.5-VL-7B
训练数据：MovieNet-318（190 部电影用于训练）

实验关键数据¶

主实验（MovieNet-318）¶

方法	F1 ↑	AP ↑
BaSSL	47.0	57.4
TranS4mer	48.4	60.8
MEGA	55.3	58.6
Chapter-LLaMA	38.6	41.5
Scene-VLM	62.1	66.8

零样本跨域（BBC Planet Earth）¶

方法	AP ↑
TranS4mer	43.6
Scene-VLM	45.8

消融实验¶

配置	F1	AP	说明
完整模型	62.1	66.8	-
去掉视觉	32.0	34.7	视觉是核心信号
去掉 Shot-ID	60.8	64.1	时序锚定有价值
去掉字幕	61.1	62.2	字幕提供互补信号
仅视觉	58.6	61.4	多模态融合提升 3.5 F1
上下文20+焦点10	62.1	-	最优配置
上下文20+焦点1（逐点式）	60.1	-	序列预测优于逐点
上下文5+焦点5	55.8	-	更大上下文更好

模型规模影响¶

参数量	F1	AP
1.5B	55.9	58.7
3B	59.6	62.8
7B	62.1	66.8

关键发现¶

视觉是最重要的信号源（去掉后 F1 暴跌 30 点），但字幕和角色 ID 提供了不可替代的补充
注意力分析显示：长度归一化后，字幕和角色 token 的注意力与视觉 token 相当
模型对后续镜头的注意力高于前序镜头——因为已通过输出 token 编码了前序信息
焦点机制对边缘位置至关重要：无焦点时边缘 F1 急剧下降，有焦点时全位置一致
从 1.5B 到 7B 持续单调提升，且 7B 提升仍然显著，暗示更大模型可能继续受益

亮点与洞察¶

范式转换：从编码器分类框架转向 VLM 序列生成框架，一举解决了多模态融合、序列依赖和可解释性三个长期问题
置信度提取技巧：从 Yes/No logits 计算归一化置信度的方法简单有效，为 VLM 应用于所有二分类任务提供了通用方案
注意力分析深入：揭示了 VLM 在场景边界预测时的信息流动模式——信任历史预测+重点关注未来上下文
零样本在 BBC 上的泛化表明框架不局限于电影领域

局限与展望¶

每个镜头 3 帧的采样可能不足以捕捉镜内剧烈运动的场景
20 个镜头的上下文窗口对超长电影可能不够——需要层次化或记忆增强的扩展
推理速度可能慢于轻量编码器方法（论文未报告延迟）
可解释性对齐需要人工标注解释样本，成本不可忽略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 VLM 应用于视频场景分割，范式创新解决了多个长期痛点
实验充分度: ⭐⭐⭐⭐⭐ 消融极其细致（模态、窗口、帧数、模型规模），注意力分析深入
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，图示直观，从方法到分析的叙述逻辑完整
价值: ⭐⭐⭐⭐ 为视频结构理解提供了新范式，置信度提取和可解释性设计有广泛迁移价值