Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining¶

会议: CVPR 2026
arXiv: 2603.22953
代码: 无
领域: 视频理解
关键词: 视频语言预训练, 掩码视觉建模, 时空聚类, 高效预训练, 视频文本对齐

一句话总结¶

提出 ClusterSTM，通过帧内语义聚类和逐簇时空掩码策略，在高掩码率下保留语义完整的视觉 token，同时引入视频-文本相关性重建目标，以极低的计算代价实现视频语言模型的高效预训练，在检索、VQA、字幕等任务上达到高效模型的新 SOTA。

研究背景与动机¶

领域现状：大规模视频语言预训练（Video-Language Pretraining, VLP）已成为多模态任务的主流范式，通过在海量视频-文本对上联合训练编码器，模型可以在视频检索、视频问答、视频字幕等下游任务上获得强大的泛化能力。然而，这类方法的计算开销极为庞大——视频数据的时空维度远高于图像，使得预训练的 GPU 时间和内存开销成为关键瓶颈。

现有痛点：近年来，掩码视觉建模（Masked Visual Modeling）被引入以缓解计算压力。其核心思路是在训练时随机遮蔽大部分视觉 token，仅保留少量 token 送入编码器。然而，这种随机掩码策略存在两个根本性缺陷： 1. 视觉信息严重丢失：当掩码率提升到 75%~90% 时，随机保留的 token 往往无法覆盖视频的关键语义区域，导致模型只能学到碎片化的视觉表示。 2. 时间信息泄露：视频相邻帧之间存在强烈的视觉相关性（大量像素几乎不变），简单的帧内随机掩码无法避免模型通过相邻帧的冗余信息"作弊"，从而削弱了对真正时序动态的学习。

核心矛盾：高效率要求高掩码率（少输入），但高掩码率又会导致语义完整性丢失和时间信息泄露，两者之间存在根本性的 trade-off。

本文目标：设计一种结构化的掩码策略，在高掩码率下同时保证：(1) 保留的 token 能覆盖视频的全局语义；(2) 保留的 token 具有强时间动态性，避免信息泄露。

切入角度：作者观察到，视频帧内的视觉 token 可以按语义相似性自然聚类为若干独立组，如果在每个语义簇中仅保留时间变化最剧烈的 token（即"时间密度"最高的），就可以同时满足语义覆盖和时间动态性的需求。

核心 idea：用帧内聚类将 token 分组，在每组中保留时序变化最大的 token，并用视频-文本相关性重建取代简单的像素级重建，从而实现语义完整且高效的视频语言预训练。

方法详解¶

整体框架¶

ClusterSTM 的 pipeline 分为三个阶段：首先，对输入视频的每一帧进行 token 化得到视觉 token 序列；其次，在每帧内部通过聚类算法将 token 分成多个语义独立的簇；最后，在每个簇中基于"时间密度"指标筛选保留 token，并将保留的 token 送入视频-语言编码器进行多模态对齐训练。训练目标包含两部分：(1) 视觉重建损失和 (2) 新提出的视频-文本相关性重建损失。

关键设计¶

帧内语义聚类（Intra-Frame Clustering）:
- 功能：将单帧中的视觉 token 按语义相似性分组，确保后续掩码操作不会遗漏重要语义区域
- 核心思路：对每帧的 token embedding 运行轻量级聚类（如 K-Means 或其变体），将 \(N\) 个 token 分为 \(K\) 个语义簇。每个簇对应视频帧中一个语义独立的区域（如前景物体、背景纹理等）。聚类过程在 embedding 空间中进行，不依赖像素级位置
- 设计动机：随机掩码的核心问题在于可能整个语义区域被掩蔽，导致关键信息丢失。通过先聚类再逐簇采样，保证每个语义区域至少有一个 token 被保留，从而实现"全局语义覆盖"
基于时间密度的簇内 Token 选择（Temporal Density-Based Selection）:
- 功能：在每个语义簇中选择时间变化最显著的 token 作为保留 token
- 核心思路：定义"时间密度"指标来衡量每个 token 在时间维度上的信息含量。具体而言，对于同一空间位置在不同帧上的 token，计算其与相邻帧对应位置 token 的差异度（embedding 距离）。差异越大，说明该位置存在更多运动或变化信息，"时间密度"越高。最终在每个簇中保留时间密度最高的 token
- 设计动机：视频相邻帧的高相关性导致大量冗余 token。如果随机保留，模型可以通过帧间冗余信息轻松"重建"被掩蔽的内容，而无需真正学习时序语义。保留时间变化最大的 token 意味着保留的信息是"最难从其他帧推断"的，迫使模型学习真正的时空动态
视频-文本相关性重建目标（Video-Text Relevance Reconstruction）:
- 功能：在传统像素级视觉重建之外，引入高层多模态语义对齐的训练信号
- 核心思路：不仅要求模型从保留的 token 重建被掩蔽 token 的视觉特征，还要求重建被掩蔽区域与配对文本之间的相关性分数。具体来说，利用预训练的文本编码器计算文本嵌入，再对被掩蔽 token 的区域预测其与文本嵌入之间的语义相关性，形成额外的多模态语义监督
- 设计动机：传统的视觉重建目标（如 MSE 或像素级 loss）只提供低层视觉信号，对高层语义理解的指导有限。通过显式要求模型理解被掩蔽区域与文本之间的关系，可以让预训练对下游多模态任务（如检索、VQA）更直接有益

损失函数 / 训练策略¶

ClusterSTM 的训练损失由三部分组成：(1) 视觉重建损失 \(\mathcal{L}_{recon}\)，要求模型从保留的 token 重建被掩蔽 token 的特征；(2) 视频-文本对比损失 \(\mathcal{L}_{vtc}\)，标准的视频-文本跨模态对比学习目标；(3) 视频-文本相关性重建损失 \(\mathcal{L}_{vtr}\)，要求预测被掩蔽区域与文本的语义关联度。整体训练策略延续主流视频语言预训练范式，使用大规模视频-文本数据进行多任务联合训练，聚类和 token 选择作为预处理步骤在每个 batch 动态执行。

实验关键数据¶

主实验¶

任务/数据集	指标	ClusterSTM	之前高效SOTA	提升
MSRVTT 检索	R@1	SOTA	-	明显优于同类高效方法
DiDeMo 检索	R@1	SOTA	-	在同等计算预算下领先
MSRVTT QA	Top-1 Acc	SOTA	-	超越同等参数量模型
MSVD 字幕	CIDEr	SOTA	-	新排名第一

消融实验¶

配置	关键指标	说明
Full ClusterSTM	最佳	完整模型
w/o 帧内聚类（改为随机掩码）	下降明显	证明聚类保证语义覆盖的重要性
w/o 时间密度选择（改为随机簇内选择）	下降	证明保留高动态 token 的作用
w/o 视频-文本相关性重建	下降	证明高层语义对齐目标的必要性
不同掩码率 (75%/85%/90%)	85%最佳	过高掩码率仍会损失信息

关键发现¶

帧内聚类是最关键的模块，移除后在检索任务上掉点最多，说明语义完整性是高掩码率预训练的核心挑战
时间密度选择相比随机选择约带来 1-2% 的一致性提升，在运动丰富的视频上提升尤为显著
视频-文本相关性重建主要在检索和 VQA 任务上有帮助，对字幕任务的提升较小
在使用仅 15% token 的条件下（85%掩码率），ClusterSTM 能达到甚至超过全 token 训练在检索任务上的性能

亮点与洞察¶

语义感知的结构化掩码：将随机掩码升级为语义感知的结构化操作，巧妙地解决了高掩码率下的信息丢失问题。这种"先分组再采样"的策略可以迁移到图像 MAE、点云预训练等其他领域
时间密度作为 token 重要性度量：用帧间差异来衡量 token 的信息含量是一个简单但结果良好的设计，无需额外学习即可实现有效的 token 筛选
多模态重建目标的引入：在视觉掩码重建中加入文本语义约束，使得预训练更直接地服务于下游多模态任务

局限与展望¶

帧内聚类引入了额外的计算开销（K-Means等），虽然相对于 Transformer 本身较小，但在超大规模预训练中可能仍需优化
本文的方法假设语义区域可以通过简单的 embedding 聚类有效分离，对于高度遮挡或语义混杂的场景，聚类质量可能下降
时间密度指标依赖帧间 token 的显式对应关系，对于剧烈运动或场景切换的视频可能不够鲁棒
未来可探索自适应的簇数和掩码率选择机制，根据视频内容动态调整

评分¶

新颖性: ⭐⭐⭐⭐ 聚类+时间密度的组合是合理且有效的创新点，但每个单独组件的思路并不完全新颖
实验充分度: ⭐⭐⭐⭐ 覆盖了检索、VQA、字幕三大任务，有消融实验
写作质量: ⭐⭐⭐⭐ 动机推导清晰，问题定义明确
价值: ⭐⭐⭐⭐ 对高效视频语言预训练有实用价值，但影响范围相对限定在VLP领域