Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval¶
会议: ACL 2025
arXiv: 2506.10202
代码: 有
领域: 多模态 / 视频检索
关键词: 文本到视频检索, 事件分解, 零样本, LLM知识迁移, 多模态融合
一句话总结¶
Q2E 提出了一种零样本的查询到事件分解方法,利用 LLM 和 VLM 的参数化世界知识将简单查询分解为前因/当前/后果事件,并结合视频的视觉描述和语音转录,通过逆熵融合排序实现 SOTA 的多语言文本到视频检索性能。
研究背景与动机¶
问题背景¶
文本到视频检索是一个重要的多媒体任务,但存在几个核心挑战:
查询过于简洁:用户通常输入简短查询(如"2025 LA fire"),但期望系统理解事件的各个方面
信息分散在多个视频中:单个视频可能只展示事件的一部分
多语言障碍:视频可能不是用户所知的语言
核心动机¶
现有视频检索系统通常依赖平台元数据或人工标注数据(如标题、搜索优化描述),无法处理复杂的真实世界事件查询。经典数据集如 MSR-VTT 和 MSVD 只包含通用、高层级查询(如"a person is explaining something"),而非复杂事件。
三个关键洞察¶
- 通过 LLM 查询分解可以增强对粗粒度查询的理解,检索到原本会被忽略的前因/后果相关视频
- VLM 字幕和 ASR 输出虽然有噪声和重复,但 LLM 精炼器可以有效去噪
- 从多种相似度/相关性判断中聚合排名时,基于熵的融合方法优于简单方法
方法详解¶
整体框架¶
Q2E 系统(图 2)包含四个核心模块:
- 事件分解模块(蓝色部分):将查询分解为前因/当前/后果事件
- 视频分解模块(绿色部分):从视频中提取多模态描述
- 音频分解模块(橙色部分):多层翻译管道处理语音
- 融合排名模块(紫色部分):逆熵融合所有评分
关键设计¶
-
事件分解(Event Decomposition):
- 使用 LLM 将查询分解为三种子事件:前因(Prequel)——可能导致当前事件的前置事件;当前(Current)——事件发生时可观察到的具体子事件;后果(Sequel)——事件可能产生的后续结果
- 每种类型生成 5 个子事件
- 使用同一 LLM 提取时间、空间和主体事件信息进行分解精炼,生成更自然的查询
-
视频分解(Video Decomposition):
- 上下文化帧描述:均匀采样 16 帧,使用滑动窗口(window=2)的 VLM 为每帧生成条件于前一帧描述的上下文化字幕
- 视频描述:将所有 16 帧描述输入 LLM,总结为单个视频密集字幕,保留时序信息并关注整体画面
-
音频分解(Audio Decomposition):多层翻译管道——
- 第一层:Whisper-v3 多语言 ASR(转录原始语言+英文翻译)
- 第二层:NLLB 翻译器(从原始转录翻译为英文)
- 第三层:Llama-70B 精炼器(精炼两种英文翻译结果)
-
评分与融合:
- 计算 5 种评分:(a) 查询 vs 视频、(b-d) 前因/当前/后果 vs 多模态描述、(e) 查询 vs 多模态描述
- 查询-视频使用 MultiCLIP 图像编码器的余弦相似度
- 查询-描述使用 ColBERT 文本相似度(优于 SBERT,因 ColBERT 在 token 级最大聚合可降低噪声影响)
- 事件-描述使用 many-to-many 全局最大相似度
- 逆熵融合排序:将每种评分转为 softmax 分布,低熵=高置信度,用逆熵加权融合:\(\hat{S} = \sum_{i}^{5} \frac{1}{H(P_i)} \cdot P_i\)
训练策略¶
- 完全零样本:不对任何模型进行微调,利用现有 LLM/VLM 的参数化知识
- 方法跨数据集、领域、LLM 和 VLM 均可适配
实验关键数据¶
主实验(Table 1,NDCG 指标)¶
| 数据集 | 编码器 | Baseline | +Event | +ASR+Event |
|---|---|---|---|---|
| MultiVENT | MultiCLIP | 75.34 | 80.04 | 83.24 |
| MultiVENT | InternVideo2-1B | 50.43 | 69.15 | 76.10 |
| MSR-VTT-1kA | MultiCLIP | 59.72 | 61.51 | 63.59 |
| MSR-VTT-1kA | InternVideo2-1B | 66.07 | 67.16 | 69.53 |
| MSVD | MultiCLIP | 71.69 | 74.10 | - |
| MSVD | InternVideo2-1B | 77.51 | 77.84 | - |
消融实验¶
| 融合方法 | NDCG↑ |
|---|---|
| Neg. Exp. Entropy | 73.20 |
| RRF | 76.29 |
| Max | 80.04 |
| Mean | 82.44 |
| Inv. Entropy (Q2E) | 83.24 |
| LLM 大小 | NDCG↑ |
|---|---|
| Baseline (无分解) | 75.34 |
| 1B | 82.50 |
| 3B | 83.03 |
| 8B | 82.91 |
| 70B | 83.24 |
关键发现¶
- 事件分解有效:仅添加事件分解(不含 ASR),MultiVENT NDCG 提升 5-19 点;加上 ASR 额外提升 3-7 点,总提升 8-26 点
- 跨语言一致提升:阿拉伯语、中文、韩语等低资源语言提升更大(分别 +6、+9、+10 NDCG)
- 小模型也有效:即使 1B 参数的 LLM 也能比基线提升至少 8 NDCG 点
- 逆熵融合最优:超过 Mean、Max、RRF 等方法
- 各组件互补:移除视频评分影响最大(-9.28 NDCG),其次是事件(-1.49)和查询(-1.70)
亮点与洞察¶
- 事件因果知识迁移:创造性地利用 LLM 的世界知识将简单查询展开为前因/当前/后果事件结构,这是一种新颖的查询增强范式
- 多层 ASR 管道:三层处理(ASR +翻译+精炼)有效解决了多语言视频的语音质量问题
- 零样本 plug-and-play:无需微调,可直接替换底层编码器(MultiCLIP/InternVideo2),实用性强
- 全局最大策略:对事件-描述匹配使用全局最大而非平均,有效降低 LLM 幻觉的负面影响
局限与展望¶
- 计算开销大:需运行多个大模型(LLM、VLM、ASR、翻译器),推理时间和成本高
- LLM 幻觉风险:事件分解和字幕精炼过程中可能产生虚假信息
- 偏见传播:依赖模型参数化知识,可能传播模型内在偏见
- 仅关注文本到视频方向:未探索视频到文本检索
- 未来可探索如何利用事实和反事实信息进行正/负对齐
相关工作与启发¶
- 延续了事件因果推理在 NLP 中的应用,将时序因果推理(前因/后果)首次应用于视频检索领域
- 受 Yin & Jiang (2024) 启发使用逆熵融合
- 对 RAG 系统有参考意义:查询分解+多源信息融合的范式可迁移到其他检索场景
- 多层翻译管道思想可应用于其他多语言多模态任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 事件分解+逆熵融合是新颖组合,将 LLM 世界知识创造性地迁移到视频检索
- 实验充分度: ⭐⭐⭐⭐⭐ 3 个数据集、2 个编码器、5 种语言、多种消融,极为详尽
- 写作质量: ⭐⭐⭐⭐ 框架清晰,图示直观,但部分公式排版略显拥挤
- 价值: ⭐⭐⭐⭐ 零样本方法在事件密集型视频检索上大幅提升,实用价值高
相关论文¶
- [CVPR 2025] Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion
- [CVPR 2025] ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer
- [CVPR 2025] Identity-Preserving Text-to-Video Generation by Frequency Decomposition
- [ECCV 2024] DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing
- [CVPR 2025] Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval