Text-Guided Video Masked Autoencoder¶
会议: ECCV 2024
arXiv: 2408.00759
代码: 未提及
领域: 视频理解 / 自监督学习
关键词: video MAE, text-guided masking, contrastive learning, self-supervised pretraining, action recognition
一句话总结¶
提出文本引导掩码策略(TGM)利用自然语言描述替代运动先验来掩码视频显著区域,并统一 MAE 与视频-文本对比学习,在五个动作识别和一个自中心数据集上取得最佳相对性能。
研究背景与动机¶
领域现状:视频掩码自编码器(Video MAE)在视频理解中展现出强大潜力。VideoMAE 和 ST-MAE 使用随机掩码,后续工作(如 MGM、MGMAE)探索基于运动的掩码策略。
现有痛点:基于视觉先验(如运动向量、光流)的掩码策略依赖输入视频满足特定假设(如前景运动大于背景),鲁棒性受限。并非所有视频都符合这些假设。
核心矛盾:掩码显著区域有助于学习更好的表示,但如何定义"显著"取决于特定的视觉假设,泛化性不足。
本文目标:(1) 能否用自然语言替代视觉先验来定义视频显著区域?(2) MAE 的生成式预训练与对比学习的判别式预训练能否统一?
切入角度:自然语言描述是视频的信息密集表示,隐式捕捉显著性而无需模态特定假设。利用 CLIP 对齐空间计算文本-视频对应关系进行掩码。
核心 idea:用文本引导掩码替代运动引导掩码,并联合 MAE 重建损失和视频-文本对比损失进行预训练。
方法详解¶
整体框架¶
对每个视频,先用 BLIP-2 离线生成 3 帧的文字描述。预训练时,用 CLIP 对齐空间计算每个视频 patch 与文本的相似度,掩码相似度最高的 patch(即最显著的区域)。MAE 编码器仅处理可见 patch,解码器重建被掩码区域。可选地,在编码器输出上添加视频-文本对比损失。
关键设计¶
-
文本引导掩码(Text-Guided Masking, TGM)
- 功能:根据文本描述的语义对应关系决定掩码位置
- 核心思路:对每帧 \(f_t\),用 CLIP ViT-B/32 逐 patch 提取特征 \(V_t \in \mathbb{R}^{\frac{H}{h} \times \frac{W}{w} \times D}\),计算与文本嵌入 \(w\) 的余弦相似度,取 top-k 个 patch 作为掩码:\(k = \frac{H}{h} \cdot \frac{W}{w} \cdot \gamma\)
- 掩码比率最优值为 0.6,显著低于 VideoMAE(0.9)和 MGM(0.75),说明 TGM 掩码的区域信息密度更高
- 设计动机:自然语言同时捕捉名词(物体)和动词(动作),无需视觉先验假设
-
字幕生成(Caption Generation)
- 功能:为无标注的 K400 和 SSv2 数据集生成视频描述
- 核心思路:对每个视频均匀采样 3 个关键帧,用 BLIP-2 离线推理生成 3 个描述,训练时随机选择一个
- 设计动机:K400 和 SSv2 无人工字幕,需自动生成。虽然帧级描述存在噪声,但已足够支撑掩码策略
-
视频-文本对比学习(Video-Text Alignment)
- 功能:在 MAE 框架上添加可选的视频-文本对比损失
- 核心思路:对 MAE 编码器输出的可见 patch 做均值池化得到全局视频嵌入 \(v_i\),与文本嵌入 \(t_i\) 计算 InfoNCE 损失: \(\mathcal{L}^{\text{NCE}}(q, k^+, \mathcal{N}^-) = -\log \frac{\exp(\text{sim}(q, k^+)/\tau)}{\sum_{k \in \{k^+\} \cup \mathcal{N}^-} \exp(\text{sim}(q, k)/\tau)}\)
- 最终损失为 \(\mathcal{L}_{\text{MSE}} + \mathcal{L}^{\text{NCE}}\)
- 设计动机:MAE 学习局部重建能力,对比学习提供全局语义对齐,两者互补
损失函数 / 训练策略¶
- 纯 MAE:MSE 重建损失
- 统一框架:\(\mathcal{L} = \mathcal{L}_{\text{MSE}} + \mathcal{L}^{\text{NCE}}\)(对比损失无额外编码器计算开销)
- 从零训练 ViT-B,输入 patch 大小 \(2 \times 16 \times 16\)
- 16 帧输入,224×224 分辨率
- AdamW 优化器,lr=1.5e-4,cosine decay
- BLIP 和 CLIP 均冻结,不接收梯度
实验关键数据¶
主实验 — 纯 MAE 比较(200 epoch,ViT-B)¶
| 掩码策略 | SSv2 FT | SSv2 LP | K400 FT | K400 LP |
|---|---|---|---|---|
| Tube(随机) | 66.6 | 25.7 | 78.4 | 38.1 |
| MGM(运动) | 67.3 | 33.0 | 79.9 | 32.1 |
| TGM(文本) | 67.1 | 26.2 | 79.9 | 33.8 |
主实验 — 统一框架(MAE+对比学习,SSv2)¶
| 掩码策略 | 仅MAE FT | +对比 FT | 仅MAE LP | +对比 LP | LP提升 |
|---|---|---|---|---|---|
| Tube | 64.9 | 65.5 | 20.8 | 33.3 | +12.5 |
| MGM | 67.3 | 67.0 | 33.0 | 37.1 | +4.1 |
| TGM | 67.1 | 67.5 | 26.2 | 33.4 | +7.2 |
迁移学习 — 小数据集 & 自中心(K400 预训练 200 epoch)¶
| 数据集 | TGM LP | TGM+对比 LP | TGM+对比 R@1 |
|---|---|---|---|
| UCF101 | 67.7 | 87.1 | 97.6 |
| HMDB51 | 41.6 | 64.3 | 99.1 |
| Diving48 | 11.3 | 19.9 | — |
| Epic-Kitchens | 14.4 | 20.1 | — |
消融实验¶
| 配置 | SSv2 FT | 说明 |
|---|---|---|
| 掩码率 0.55 | 67.1 | 稍低 |
| 掩码率 0.60 | 67.5 | 最优 |
| 掩码率 0.75 | 66.4 | 过度掩码 |
| Bottom-K(掩最不相关) | 67.2 | 仍优于随机 |
| Top-K(掩最相关) | 67.5 | 最优 |
| 1 帧描述 | 66.5 | 稍低 |
| 3 帧描述 | 67.5 | 更多样的描述更好 |
关键发现¶
- TGM 不用任何显式视觉线索即可与运动引导掩码竞争,证实自然语言能有效捕捉视频显著性
- 对比学习对线性探测提升最大(最高 +12.5%),说明学到了更可分离的语义表征
- 最优掩码率 0.6 远低于其他 MAE 方法的 0.75-0.9,因为 TGM 掩码的是信息最密集的区域
- 即使用 GPT3.5 的"无视觉"文本描述也能获得不错的线性探测性能(54.0),说明文本引导具有较强鲁棒性
亮点与洞察¶
- MAE 与对比学习的统一:之前 FLIP 报告两者是对抗性的,本文发现在视频域两者是协同的。即使纯 MAE 训练,对比损失也自然下降,说明 MAE 编码器已隐式学习了与文本对齐的语义。
- 掩码率的信号:最优掩码率 0.6 本身就是一个有趣发现——TGM 每个被掩码的 patch 携带的信息量更大,因此不需要掩太多就能构成足够难的预训练任务。
局限与展望¶
- 依赖 BLIP-2 的帧级图像描述,无法捕捉视频的时间细节
- 依赖 CLIP 对齐空间的质量来生成掩码
- 仅在约 200K 视频上训练,规模远小于 ViCLIP(200M)
- 未探索视频级描述模型或多帧联合描述
相关工作与启发¶
- vs MGM/MGMAE:运动引导掩码依赖运动向量/光流,TGM 不用任何显式运动信息性能即可持平或超越,开辟了语言引导 MAE 的新方向
- vs CoCa/FLIP:CoCa 联合 caption 和对比,FLIP 引入图像掩码加速 CLIP。本文在视频域统一 MAE + 掩码对比,且发现两者协同(FLIP 报告对抗)
- vs InternVideo:InternVideo 交替训练 MAE 和对比学习用不同 backbone,本文共享 backbone 联合优化
评分¶
- 新颖性: ⭐⭐⭐⭐ 文本引导掩码视频 MAE 首次探索,思路清晰巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 六个数据集,系统消融掩码率/文本源/掩码方向
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,洞察深入,讨论部分分析到位
- 价值: ⭐⭐⭐⭐ 开辟语言引导视频 MAE 新方向,统一框架有普适性
相关论文¶
- [ECCV 2024] Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition
- [ECCV 2024] Data Collection-Free Masked Video Modeling
- [ECCV 2024] Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data
- [ECCV 2024] Evaluating Text-to-Visual Generation with Image-to-Text Generation
- [CVPR 2025] Learning Audio-Guided Video Representation with Gated Attention for Video-Text Retrieval