SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning¶

会议: CVPR 2025
arXiv: 2504.00527
代码: https://github.com/fmthoker/SMILE (有)
领域: 自监督学习 / 视频理解
关键词: 掩码视频建模, 合成运动增强, CLIP特征目标, 轨迹掩码, VideoMAE

一句话总结¶

提出 SMILE，通过合成运动增强（在视频上叠加沿随机轨迹运动的分割物体）和 CLIP 特征重建目标来增强掩码视频建模，结合轨迹引导的掩码策略，在 K400 线性探测上大幅提升至 56.2%（前 SOTA 47.5%）。

领域现状：自监督视频表示学习中，掩码视频建模（如 VideoMAE）通过掩码-重建学习时空特征。但视频中的时间冗余严重——相邻帧几乎相同，模型可能通过"看邻居"作弊而不真正理解运动。

现有痛点：（1）像素重建目标关注低层纹理而非高层语义；（2）自然视频中物体运动不够多样，模型难以学到丰富的运动模式；（3）随机 tube masking 没有针对运动区域。

核心矛盾：掩码视频学习需要丰富的运动信号，但自然视频中大部分区域是静态背景。

切入角度：人工合成运动——从 Stable Diffusion 生成物体，用 X-Paste 分割后沿随机平滑轨迹叠加到视频上，强制引入运动信号。搭配 CLIP 特征替代像素作为重建目标。

核心 idea：合成物体运动增强 + CLIP 特征重建 + 轨迹掩码 = 运动感知的自监督视频学习。

合成运动增强:
- 功能：人工增加视频中的运动多样性
- 核心思路：用 Stable Diffusion 生成物体图像，X-Paste 分割出来，沿随机二次贝塞尔曲线轨迹叠加到视频帧上，带缩放和旋转变换。强制模型学习跟踪这些运动物体
- 设计动机：消融显示合成运动在 K400 上贡献 +3.1%（像素目标），说明它有效打破了时间冗余
CLIP 特征重建目标:
- 功能：用高层语义特征替代低层像素作为重建目标
- 核心思路：用预训练 CLIP 图像编码器提取每帧特征，作为掩码 token 的重建目标：\(\mathcal{L} = \frac{1}{|\mathcal{T}^{mask}|}\sum_{i \in \mathcal{T}^{mask}} \|f_i' - Y_i\|_2^2\)
- 设计动机：CLIP 特征比像素高 +12.1% 线性探测准确率——证明语义级目标远优于像素级
轨迹引导掩码:
- 功能：在合成物体运动轨迹上额外施加掩码
- 核心思路：在标准 tube masking 基础上，沿合成物体的运动轨迹额外掩码 token，迫使模型预测轨迹上的语义特征
- 设计动机：在运动最活跃的区域施加掩码，最大化运动推理需求

CLIP 特征 L2 重建损失。ViT-B backbone，K400 上 600 epochs。渐进训练：先用合成运动+CLIP 目标预训练，再用原始视频微调。

方法	K400 线性探测	UCF-101	SSv2
VideoMAE	40.2%	73.1%	17.8%
SIGMA (前SOTA)	47.5%	80.7%	21.7%
SMILE	56.2%	83.8%	23.7%