跳转至

ClusterSTM: Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining

日期: 2026-03-24
arXiv: 2603.22953
代码: 无
领域: 视频理解 / 多模态预训练
关键词: video-language pretraining, masked visual modeling, spatio-temporal masking, clustering, efficiency

一句话总结

ClusterSTM 提出语义聚类驱动的时空遮掩策略来高效预训练视频语言模型:先帧内聚类将视觉token分为语义独立组,再按时间密度选保留token,确保保留token覆盖整体视频内容且有强时间关联。配合视频-文本相关性重建目标,在检索/QA/字幕任务上建立新SOTA。

研究背景与动机

  1. 领域现状:大规模视频语言预训练效果强但计算成本极高(视频token数量=帧数×空间token数),遮掩视觉建模(如 MAE 策略)通过高比例遮掩减少计算。
  2. 现有痛点:(a) 高遮掩比下严重信息丢失——随机遮掩可能丢弃关键的运动或物体信息;(b) 帧间高度相关导致时间信息泄漏——相邻帧的未遮掩token可以轻松"偷看"被遮掩帧的信息,使重建任务过于简单、学不到有效表示
  3. 核心矛盾:要高效(高遮掩比)又要保留信息(低丢失),同时避免时间泄漏
  4. 切入角度:不是随机遮掩,而是语义感知地选择保留哪些token
  5. 核心 idea聚类+时间密度选择——帧内聚类找语义组,每组保留时间最密集的token,确保覆盖全面且时间关联强

方法详解

整体框架

视频帧 → 视觉编码(ViT-L/14)→ 帧内语义聚类(将token分为K=8个语义组)→ 每个组内按时间密度排序保留top-1 token → 保留的稀疏token(仅25%)做视频语言联合建模 → 视频-文本相关性重建作为额外训练目标。

训练细节

  • 视觉编码器:ViT-L/14,在中间层(第 9 层)特征上做聚类
  • 遮掩比例:75%(仅保留 25% 的视觉 token)
  • 预训练数据:WebVid-10M + CC3M
  • 训练开销:与随机遮掩相当(聚类增加 <3% FLOPs),相比全序列训练节省 60% GPU 内存
  • 下游评测:视频文本检索(MSR-VTT/DiDeMo)、VideoQA(MSRVTT-QA/MSVD-QA)、视频字幕(MSRVTT)

关键设计

  1. 帧内语义聚类

    • 做什么:将每帧的视觉token分成K个语义独立的聚类
    • 核心思路:对token特征做轻量聚类(如K-Means或可微分聚类),每个聚类代表一个语义实体或区域
    • 设计动机:确保保留的token不集中在同一语义区域(如都是背景而丢失前景物体)
    • 实现细节:K=8 为默认值,聚类在 ViT 的中间层特征上进行,可微分聚类版本比 K-Means 快 3×且效果相当
  2. 时间密度保留策略

    • 做什么:在每个聚类内选择跨帧出现频率最高(时间密度最大)的token保留
    • 核心思路:计算每个token在时间轴上的"密度"(在连续帧中有多少相似token),密度最高的token最具时间代表性
    • 设计动机:高密度token = 跨帧持续存在 = 稳定的视觉元素 = 时间信息丰富。同时避免保留瞬时噪声
  3. 视频-文本相关性重建

    • 做什么:额外训练目标——从保留的稀疏visual token和文本token联合重建高层多模态语义
    • 与传统像素重建不同:不重建被遮掩的像素,而是重建视频和文本之间的语义对齐关系
    • 设计动机:像素重建在高遮掩比下过难且噪声大,语义重建更鲁棒

实验关键数据

主实验

方法 视频文本检索 R@1 Video QA 视频字幕 训练效率
VideoCoCa 基准 基准 基准
UMT (随机遮掩) 中偏上 中偏上 中偏上 0.5×
ClusterSTM 最优 最优 最优 ~0.5×

消融实验

遮掩策略 检索 R@1 说明
随机遮掩 75% 基准 信息丢失严重
时间均匀遮掩 +3% 减少时间泄漏
语义聚类遮掩(无时间) +4% 覆盖好但时间随机
ClusterSTM(聚类+密度) +7% 两者互补

关键发现

  • 随机遮掩在高比例下严重丢失关键物体——聚类保留策略直接解决了"该看什么"的问题
  • 时间密度选择比随机选择更关注持续存在的视觉元素,隐式缓解了时间泄漏
  • 视频-文本相关性重建比像素重建在高遮掩比下更稳定
  • 训练效率保持在 ~50%(与随机遮掩相当),语义聚类增加的开销可忽略
  • 聚类数 K=8 最优,K=4 时覆盖不足,K=16 时每类 token 太少导致密度估计不稳定
  • 与全序列训练相比,75% 遮蔽率 + ClusterSTM 节省 60% GPU 内存且减少 50% 训练时间
  • 可微分聚类版本比 K-Means 快 3× 且效果相当,使方法可端到端训练
  • 在动作密集视频(如体育)上收益最大,静态场景(如风景)收益较小

亮点与洞察

  • "聚类保覆盖+密度保时间":双重策略分别处理空间和时间维度的信息保留,设计清晰互补
  • 语义重建替代像素重建:在高遮掩比下更实用,对高效视频预训练有指导意义

局限性 / 可改进方向

  • 聚类数K的选择需要调参,不同视频内容的最优K可能不同
  • 对长视频(分钟级)的扩展待验证——聚类质量可能随帧数增加而下降
  • 聚类质量依赖视觉编码器的特征——弱编码器导致语义聚类不准
  • 时间密度选择的计算需要跨帧比较,对超长视频可能成为瓶颈

相关工作与启发

  • vs VideoMAE: VideoMAE 用时空随机遮掩+像素重建,ClusterSTM 用语义引导+语义重建
  • vs UMT: UMT 统一遮掩建模但仍随机,ClusterSTM 加入语义引导
  • 启发: 语义感知的 token 选择思路可推广到 LLM 长上下文压缩——选择语义覆盖最全且信息密度最高的 token 子集

评分

  • 新颖性: ⭐⭐⭐⭐ 聚类驱动的时空遮掩策略设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 三类下游任务+消融充分
  • 写作质量: ⭐⭐⭐⭐ 两个局限性(信息丢失+时间泄漏)分析清晰
  • 价值: ⭐⭐⭐⭐ 对高效视频语言预训练有实际意义