跳转至

Moment Quantization for Video Temporal Grounding

会议: ICCV 2025
arXiv: 2504.02286
代码: 无
领域: 视频理解
关键词: 视频时序定位, 向量量化, 时刻码本, 高光检测, 离散表示学习

一句话总结

提出 MQVTG,首次将向量量化引入视频时序定位任务,通过时刻码本和软量化将视频片段映射为离散向量,增强前景/背景的区分度,在 6 个基准上取得 SOTA。

研究背景与动机

视频时序定位(VTG)旨在根据自然语言描述定位视频中的相关时刻,核心挑战在于区分相关和不相关的时刻。

现有方法的不足:

连续特征区分度弱:以 TR-DETR 为例,前景和相似背景特征在特征空间中距离很近,难以区分

前景特征聚合不足:不同前景区域的特征在空间中分散,未能有效聚合

视频的冗余信息:视频包含大量冗余信息,而 VTG 的核心是提取判别性信息区分前景/背景

关键洞察:前景可以用简洁的离散语言描述(如"用勺子搅拌咖喱"),那么能否用离散向量描述连续视频时刻来增强区分度?向量量化的聚类过程天然符合 VTG 对前景/背景分离的需求。

方法详解

整体框架

MQVTG 从简单的 Clip Quantization 进阶到 Moment Quantization,核心改进三点:(1) 量化置于时序建模之后以适应跨片段特性;(2) 使用软量化保留视觉多样性;(3) 设计带先验初始化和联合投影的时刻码本。

关键设计

  1. Clip Quantization → Moment Quantization 的演进

    • Clip Quantization 类似图像量化,直接量化单独片段,忽略了视频时刻的两个特性:跨片段性(一个动作跨越多个片段)和视觉多样性(同一描述有多种视觉表现)
    • Moment Quantization 在时序编码器 \(E_t\) 之后执行量化,让量化操作作用于已建模时序关系的特征 \(z_t = E_t(z_s)\)
  2. 软量化(Soft Quantization):不直接替换连续特征为离散码字(硬量化),而是将量化过程作为聚类正则化。通过码本损失 \(\mathcal{L}_{cb} = \|C(z_t) - \text{sg}(E_t(z_s))\|_2^2\) 和承诺损失 \(\mathcal{L}_{cmt} = \|\text{sg}(C(z_t)) - E_t(z_s)\|_2^2\) 驱动特征-码字聚类,但下游定位模块仍使用连续特征 \(z_t\)。这避免了有限容量码本导致的信息丢失。

  3. 时刻码本(Moment Codebook)

    • 先验初始化:用预训练 CLIP 提取所有训练视频片段的特征,k-means 聚类后以聚类中心初始化码本,确保码字从一开始就有效
    • 联合投影:引入可训练投影层 \(C' = P(C)\)(线性层)替代直接优化码本向量,探索不同码字间的时序语义关联
  4. 即插即用特性:量化模块可集成到 encoder-only 和 encoder-decoder (DETR) 架构中,训练时只增加码本参数,推理时零额外成本。

损失函数 / 训练策略

总损失:\(\mathcal{L}_{overall} = \mathcal{L}_{mr} + \lambda_{hd}\mathcal{L}_{hd} + \lambda_{mq}\mathcal{L}_{mq} + \lambda_{align}\mathcal{L}_{align}\)

  • \(\mathcal{L}_{mr}\):时刻检索损失(L1 + Focal)
  • \(\mathcal{L}_{hd}\):高光检测损失(视频内对比学习)
  • \(\mathcal{L}_{mq} = \mathcal{L}_{cb} + \lambda_{cmt}\mathcal{L}_{cmt}\):量化监督
  • \(\mathcal{L}_{align}\):InfoNCE 视频-文本对齐损失

实验关键数据

主实验

QVHighlights 验证集(MR + HD):

方法 R1@0.5 R1@0.7 mAP@0.5 mAP Avg. HD mAP HD HIT@1
TR-DETR 67.10 51.48 66.27 45.09 40.55 64.77
CG-DETR 67.35 52.06 65.57 44.93 40.79 66.71
R²-Tuning 68.71 52.06 - 47.59 40.59 64.32
MQVTG 67.94 53.03 68.54 48.81 40.23 65.29

Charades-STA / TACoS / Ego4D-NLQ 时刻检索:

方法 Charades R1@0.7 TACoS R1@0.7 Ego4D mIoU
R²-Tuning 37.02 25.12 4.94
MQVTG 38.84 25.82 5.08

消融实验

核心组件消融(QVHighlights val):

配置 R1@0.5 R1@0.7 mAP@0.5 mAP Avg.
Baseline(无量化) 65.35 49.42 66.99 45.63
+ 时序后量化(QATM) 66.37 51.11 67.43 47.02
+ QATM + 软量化(SQ) 66.52 51.23 68.18 47.54
+ QATM + SQ + 时刻码本(MC) 67.94 53.03 68.54 48.81

量化方式对比:

量化方式 R1@0.7 mAP Avg. 说明
Image Quantization 51.03 46.55 图像级量化
Clip Quantization 51.61 46.93 片段级量化
Moment Quantization 53.03 48.81 时刻级量化
Hard Quantization 50.90 47.46 直接替换为离散向量

关键发现

  • 即插即用验证:集成到 QD-DETR、TR-DETR、TaskWeave 等 DETR 模型均有一致提升
  • YouTube HL 和 TVSum 高光检测分别超 SOTA 2.1% 和 1.4%
  • 码本利用率低(<10%)是当前瓶颈,限制细粒度场景的性能提升

亮点与洞察

  • 首次将向量量化从图像/音频领域迁移到视频时序定位,填补了该方向的空白
  • 软量化策略巧妙:量化过程作为正则化驱动特征聚类,但不直接使用离散码字,兼顾区分度和信息完整性
  • k-means 先验初始化简单有效,解决了码本训练的冷启动问题

局限与展望

  • 码本利用率低(<10%),大量码字未被激活,限制了细粒度场景的表现
  • 高光检测的提升不如时刻检索明显(全局 vs 局部信息需求冲突)
  • 未来可探索动态码本大小或层次化码本结构

相关工作与启发

  • 量化作为正则化手段(而非压缩/重建目的)的思路可推广到其他需要前景/背景分离的视频任务
  • 时刻码本的联合投影策略启发了如何在码本向量间建立关联
  • 即插即用特性使其可与未来更强的基线模型组合

评分

维度 分数
创新性 ⭐⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
总体 ⭐⭐⭐⭐

相关论文