Localizing Events in Videos with Multimodal Queries¶

会议: CVPR 2025
arXiv: 2406.10079
代码: https://icq-benchmark.github.io/ (有)
领域: 视频理解
关键词: 多模态查询, 视频事件定位, 基准测试, 查询适配, 视频时空定位

一句话总结¶

提出 ICQ 基准和 ICQ-Highlight 数据集，首次系统研究用多模态查询（图像+文本）替代纯文本查询进行视频事件定位，并设计 3 种查询适配方法和 SUIT 代理微调策略。

视频事件定位（包括 moment retrieval、highlight detection、temporal grounding）长期以来依赖纯文本查询（NLQ），但实际应用中存在显著局限：

因此，多模态查询（MQ）= 参考图像 + 修正文本是一种更灵活通用的范式，但面临两个挑战：视觉查询可能引入无关细节，且参考图像与目标视频之间存在分布偏移。

ICQ 包含三大贡献：

ICQ-Highlight 数据集：基于 QVHighlights 验证集构建，为每个原始文本查询创建多模态查询（4 种参考图像风格 × 修正文本），包含人工标注
3 种多模态查询适配方法 (MQA)：将 MQ 转换为已有 NLQ 模型可用的输入
SUIT 代理微调策略：用伪 MQ 微调 MLLM 提升适配质量

多模态查询定义与数据构建：
- 参考图像 \(v_{ref}\)：通过 DALL-E-2 和 Stable Diffusion 生成 4 种风格——涂鸦(scribble)、卡通(cartoon)、电影(cinematic)、写实(realistic)
- 修正文本 \(t_{ref}\)：分 5 类——物体、动作、关系、属性、环境，提供补充或纠正信息
- 人工标注：每个查询由不同标注者标注和审核，确保一致性
- 任务定义：给定 \(q_m = (v_{ref}, t_{ref})\)，预测视频中所有相关片段 \([\tau_{start}, \tau_{end}]\)
三种 MQA 适配方法：
- MQ-Cap (Language-Space)：用 MLLM(LLaVA) 为参考图像生成描述 → LLM(GPT-3.5) 整合修正文本 → 生成 NLQ 输入。两步分离，更可控
- MQ-Sum (Language-Space)：用 MLLM 一步将参考图像和修正文本合并为文本摘要。更简洁但不够可控，对 prompt 敏感
- VQ-Enc (Embedding-Space)：直接用 CLIP 视觉编码器编码参考图像为查询嵌入 \(e_q\)，利用 CLIP 双流编码器的共享嵌入空间。不使用修正文本
SUIT 代理微调策略：解决 MQ 训练数据不足的问题：
- 伪 MQ 生成：从 Flickr30K + COCO 的图文对出发，用 GPT-3.5 将 caption 拆分为"篡改 caption" + "修正文本"，原图 + 修正文本 = 伪 MQ
- 代理微调：在伪 MQ → 篡改 caption 的任务上微调 LLaVA (LoRA, rank 32, alpha 64)
- 迁移：微调后的 MLLM 直接用于 ICQ-Highlight 评估
- 89,420 条训练数据，LR \(2 \times 10^{-4}\)

SUIT 使用 next-token prediction loss + LoRA PEFT
适配后直接使用各 backbone 预训练检查点，无需修改 backbone
评估 12 个 backbone：9 个专用模型 (Moment-DETR, QD-DETR 等) + 3 个 LLM-based (SeViLA, TimeChat, VTimeLLM)

方法	模型	R1@0.5 (realistic)	R1@0.7 (realistic)	说明
VQ-Enc	CG-DETR	24.74	14.23	仅参考图像
MQ-Cap	TR-DETR	56.94	41.99	训练免方法最优
MQ-Cap	CG-DETR	56.72	41.79	第二
MQ-Sum	TR-DETR	52.87	36.77	不如 MQ-Cap
MQ-Sum+SUIT	TR-DETR	57.39	42.64	整体最优
MQ-Sum+SUIT	CG-DETR	55.47	40.17
MQ-Cap	SeViLA	26.83	16.83	LLM模型表现差

MQ 可有效定位视频事件：各适配方法在不同风格下表现一致，证明 MQ 的可行性
MQ-Cap > MQ-Sum > VQ-Enc：分步 caption + 修正比一步摘要更可控；纯视觉编码最差
SUIT 是最佳策略：非marginal 提升(4.3%-9.7%)，且性能更稳定（标准差更小）
涂鸦图像也有效：scribble 风格性能仅略低于 realistic/cinematic，展现了极简视觉查询的潜力
专用模型 >> LLM-based 模型：SeViLA/TimeChat/VTimeLLM 在所有适配方法下都远弱于 TR-DETR/CG-DETR/UVCOM
不同 backbone 的排名在各适配方法间一致：说明 backbone 能力是决定性因素
MQ 与 NLQ 的性能差距仍然显著，多模态查询语义在跨模态转换中存在损耗