跳转至

Text-Guided Video Masked Autoencoder

会议: ECCV 2024
arXiv: 2408.00759
代码: 未提及
领域: 视频理解 / 自监督学习
关键词: video MAE, text-guided masking, contrastive learning, self-supervised pretraining, action recognition

一句话总结

提出文本引导掩码策略(TGM)利用自然语言描述替代运动先验来掩码视频显著区域,并统一 MAE 与视频-文本对比学习,在五个动作识别和一个自中心数据集上取得最佳相对性能。

研究背景与动机

领域现状:视频掩码自编码器(Video MAE)在视频理解中展现出强大潜力。VideoMAE 和 ST-MAE 使用随机掩码,后续工作(如 MGM、MGMAE)探索基于运动的掩码策略。

现有痛点:基于视觉先验(如运动向量、光流)的掩码策略依赖输入视频满足特定假设(如前景运动大于背景),鲁棒性受限。并非所有视频都符合这些假设。

核心矛盾:掩码显著区域有助于学习更好的表示,但如何定义"显著"取决于特定的视觉假设,泛化性不足。

本文目标:(1) 能否用自然语言替代视觉先验来定义视频显著区域?(2) MAE 的生成式预训练与对比学习的判别式预训练能否统一?

切入角度:自然语言描述是视频的信息密集表示,隐式捕捉显著性而无需模态特定假设。利用 CLIP 对齐空间计算文本-视频对应关系进行掩码。

核心 idea:用文本引导掩码替代运动引导掩码,并联合 MAE 重建损失和视频-文本对比损失进行预训练。

方法详解

整体框架

对每个视频,先用 BLIP-2 离线生成 3 帧的文字描述。预训练时,用 CLIP 对齐空间计算每个视频 patch 与文本的相似度,掩码相似度最高的 patch(即最显著的区域)。MAE 编码器仅处理可见 patch,解码器重建被掩码区域。可选地,在编码器输出上添加视频-文本对比损失。

关键设计

  1. 文本引导掩码(Text-Guided Masking, TGM)

    • 功能:根据文本描述的语义对应关系决定掩码位置
    • 核心思路:对每帧 \(f_t\),用 CLIP ViT-B/32 逐 patch 提取特征 \(V_t \in \mathbb{R}^{\frac{H}{h} \times \frac{W}{w} \times D}\),计算与文本嵌入 \(w\) 的余弦相似度,取 top-k 个 patch 作为掩码:\(k = \frac{H}{h} \cdot \frac{W}{w} \cdot \gamma\)
    • 掩码比率最优值为 0.6,显著低于 VideoMAE(0.9)和 MGM(0.75),说明 TGM 掩码的区域信息密度更高
    • 设计动机:自然语言同时捕捉名词(物体)和动词(动作),无需视觉先验假设
  2. 字幕生成(Caption Generation)

    • 功能:为无标注的 K400 和 SSv2 数据集生成视频描述
    • 核心思路:对每个视频均匀采样 3 个关键帧,用 BLIP-2 离线推理生成 3 个描述,训练时随机选择一个
    • 设计动机:K400 和 SSv2 无人工字幕,需自动生成。虽然帧级描述存在噪声,但已足够支撑掩码策略
  3. 视频-文本对比学习(Video-Text Alignment)

    • 功能:在 MAE 框架上添加可选的视频-文本对比损失
    • 核心思路:对 MAE 编码器输出的可见 patch 做均值池化得到全局视频嵌入 \(v_i\),与文本嵌入 \(t_i\) 计算 InfoNCE 损失: \(\mathcal{L}^{\text{NCE}}(q, k^+, \mathcal{N}^-) = -\log \frac{\exp(\text{sim}(q, k^+)/\tau)}{\sum_{k \in \{k^+\} \cup \mathcal{N}^-} \exp(\text{sim}(q, k)/\tau)}\)
    • 最终损失为 \(\mathcal{L}_{\text{MSE}} + \mathcal{L}^{\text{NCE}}\)
    • 设计动机:MAE 学习局部重建能力,对比学习提供全局语义对齐,两者互补

损失函数 / 训练策略

  • 纯 MAE:MSE 重建损失
  • 统一框架\(\mathcal{L} = \mathcal{L}_{\text{MSE}} + \mathcal{L}^{\text{NCE}}\)(对比损失无额外编码器计算开销)
  • 从零训练 ViT-B,输入 patch 大小 \(2 \times 16 \times 16\)
  • 16 帧输入,224×224 分辨率
  • AdamW 优化器,lr=1.5e-4,cosine decay
  • BLIP 和 CLIP 均冻结,不接收梯度

实验关键数据

主实验 — 纯 MAE 比较(200 epoch,ViT-B)

掩码策略 SSv2 FT SSv2 LP K400 FT K400 LP
Tube(随机) 66.6 25.7 78.4 38.1
MGM(运动) 67.3 33.0 79.9 32.1
TGM(文本) 67.1 26.2 79.9 33.8

主实验 — 统一框架(MAE+对比学习,SSv2)

掩码策略 仅MAE FT +对比 FT 仅MAE LP +对比 LP LP提升
Tube 64.9 65.5 20.8 33.3 +12.5
MGM 67.3 67.0 33.0 37.1 +4.1
TGM 67.1 67.5 26.2 33.4 +7.2

迁移学习 — 小数据集 & 自中心(K400 预训练 200 epoch)

数据集 TGM LP TGM+对比 LP TGM+对比 R@1
UCF101 67.7 87.1 97.6
HMDB51 41.6 64.3 99.1
Diving48 11.3 19.9
Epic-Kitchens 14.4 20.1

消融实验

配置 SSv2 FT 说明
掩码率 0.55 67.1 稍低
掩码率 0.60 67.5 最优
掩码率 0.75 66.4 过度掩码
Bottom-K(掩最不相关) 67.2 仍优于随机
Top-K(掩最相关) 67.5 最优
1 帧描述 66.5 稍低
3 帧描述 67.5 更多样的描述更好

关键发现

  • TGM 不用任何显式视觉线索即可与运动引导掩码竞争,证实自然语言能有效捕捉视频显著性
  • 对比学习对线性探测提升最大(最高 +12.5%),说明学到了更可分离的语义表征
  • 最优掩码率 0.6 远低于其他 MAE 方法的 0.75-0.9,因为 TGM 掩码的是信息最密集的区域
  • 即使用 GPT3.5 的"无视觉"文本描述也能获得不错的线性探测性能(54.0),说明文本引导具有较强鲁棒性

亮点与洞察

  • MAE 与对比学习的统一:之前 FLIP 报告两者是对抗性的,本文发现在视频域两者是协同的。即使纯 MAE 训练,对比损失也自然下降,说明 MAE 编码器已隐式学习了与文本对齐的语义。
  • 掩码率的信号:最优掩码率 0.6 本身就是一个有趣发现——TGM 每个被掩码的 patch 携带的信息量更大,因此不需要掩太多就能构成足够难的预训练任务。

局限与展望

  • 依赖 BLIP-2 的帧级图像描述,无法捕捉视频的时间细节
  • 依赖 CLIP 对齐空间的质量来生成掩码
  • 仅在约 200K 视频上训练,规模远小于 ViCLIP(200M)
  • 未探索视频级描述模型或多帧联合描述

相关工作与启发

  • vs MGM/MGMAE:运动引导掩码依赖运动向量/光流,TGM 不用任何显式运动信息性能即可持平或超越,开辟了语言引导 MAE 的新方向
  • vs CoCa/FLIP:CoCa 联合 caption 和对比,FLIP 引入图像掩码加速 CLIP。本文在视频域统一 MAE + 掩码对比,且发现两者协同(FLIP 报告对抗)
  • vs InternVideo:InternVideo 交替训练 MAE 和对比学习用不同 backbone,本文共享 backbone 联合优化

评分

  • 新颖性: ⭐⭐⭐⭐ 文本引导掩码视频 MAE 首次探索,思路清晰巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 六个数据集,系统消融掩码率/文本源/掩码方向
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,洞察深入,讨论部分分析到位
  • 价值: ⭐⭐⭐⭐ 开辟语言引导视频 MAE 新方向,统一框架有普适性

相关论文