Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval¶

会议: ACL 2025
arXiv: 2506.10202
代码: 有
领域: 多模态 / 视频检索
关键词: 文本到视频检索, 事件分解, 零样本, LLM知识迁移, 多模态融合

一句话总结¶

Q2E 提出了一种零样本的查询到事件分解方法，利用 LLM 和 VLM 的参数化世界知识将简单查询分解为前因/当前/后果事件，并结合视频的视觉描述和语音转录，通过逆熵融合排序实现 SOTA 的多语言文本到视频检索性能。

研究背景与动机¶

问题背景¶

文本到视频检索是一个重要的多媒体任务，但存在几个核心挑战：

查询过于简洁：用户通常输入简短查询（如"2025 LA fire"），但期望系统理解事件的各个方面

信息分散在多个视频中：单个视频可能只展示事件的一部分

多语言障碍：视频可能不是用户所知的语言

核心动机¶

现有视频检索系统通常依赖平台元数据或人工标注数据（如标题、搜索优化描述），无法处理复杂的真实世界事件查询。经典数据集如 MSR-VTT 和 MSVD 只包含通用、高层级查询（如"a person is explaining something"），而非复杂事件。

三个关键洞察¶

通过 LLM 查询分解可以增强对粗粒度查询的理解，检索到原本会被忽略的前因/后果相关视频
VLM 字幕和 ASR 输出虽然有噪声和重复，但 LLM 精炼器可以有效去噪
从多种相似度/相关性判断中聚合排名时，基于熵的融合方法优于简单方法

方法详解¶

整体框架¶

Q2E 系统（图 2）包含四个核心模块：

事件分解模块（蓝色部分）：将查询分解为前因/当前/后果事件
视频分解模块（绿色部分）：从视频中提取多模态描述
音频分解模块（橙色部分）：多层翻译管道处理语音
融合排名模块（紫色部分）：逆熵融合所有评分

关键设计¶

事件分解（Event Decomposition）：
- 使用 LLM 将查询分解为三种子事件：前因（Prequel）——可能导致当前事件的前置事件；当前（Current）——事件发生时可观察到的具体子事件；后果（Sequel）——事件可能产生的后续结果
- 每种类型生成 5 个子事件
- 使用同一 LLM 提取时间、空间和主体事件信息进行分解精炼，生成更自然的查询
视频分解（Video Decomposition）：
- 上下文化帧描述：均匀采样 16 帧，使用滑动窗口（window=2）的 VLM 为每帧生成条件于前一帧描述的上下文化字幕
- 视频描述：将所有 16 帧描述输入 LLM，总结为单个视频密集字幕，保留时序信息并关注整体画面
音频分解（Audio Decomposition）：多层翻译管道——
- 第一层：Whisper-v3 多语言 ASR（转录原始语言+英文翻译）
- 第二层：NLLB 翻译器（从原始转录翻译为英文）
- 第三层：Llama-70B 精炼器（精炼两种英文翻译结果）
评分与融合：
- 计算 5 种评分：(a) 查询 vs 视频、(b-d) 前因/当前/后果 vs 多模态描述、(e) 查询 vs 多模态描述
- 查询-视频使用 MultiCLIP 图像编码器的余弦相似度
- 查询-描述使用 ColBERT 文本相似度（优于 SBERT，因 ColBERT 在 token 级最大聚合可降低噪声影响）
- 事件-描述使用 many-to-many 全局最大相似度
- 逆熵融合排序：将每种评分转为 softmax 分布，低熵=高置信度，用逆熵加权融合：\(\hat{S} = \sum_{i}^{5} \frac{1}{H(P_i)} \cdot P_i\)

训练策略¶

完全零样本：不对任何模型进行微调，利用现有 LLM/VLM 的参数化知识
方法跨数据集、领域、LLM 和 VLM 均可适配

实验关键数据¶

主实验（Table 1，NDCG 指标）¶

数据集	编码器	Baseline	+Event	+ASR+Event
MultiVENT	MultiCLIP	75.34	80.04	83.24
MultiVENT	InternVideo2-1B	50.43	69.15	76.10
MSR-VTT-1kA	MultiCLIP	59.72	61.51	63.59
MSR-VTT-1kA	InternVideo2-1B	66.07	67.16	69.53
MSVD	MultiCLIP	71.69	74.10	-
MSVD	InternVideo2-1B	77.51	77.84	-

消融实验¶

融合方法	NDCG↑
Neg. Exp. Entropy	73.20
RRF	76.29
Max	80.04
Mean	82.44
Inv. Entropy (Q2E)	83.24

LLM 大小	NDCG↑
Baseline (无分解)	75.34
1B	82.50
3B	83.03
8B	82.91
70B	83.24

关键发现¶

事件分解有效：仅添加事件分解（不含 ASR），MultiVENT NDCG 提升 5-19 点；加上 ASR 额外提升 3-7 点，总提升 8-26 点
跨语言一致提升：阿拉伯语、中文、韩语等低资源语言提升更大（分别 +6、+9、+10 NDCG）
小模型也有效：即使 1B 参数的 LLM 也能比基线提升至少 8 NDCG 点
逆熵融合最优：超过 Mean、Max、RRF 等方法
各组件互补：移除视频评分影响最大（-9.28 NDCG），其次是事件（-1.49）和查询（-1.70）

亮点与洞察¶

事件因果知识迁移：创造性地利用 LLM 的世界知识将简单查询展开为前因/当前/后果事件结构，这是一种新颖的查询增强范式
多层 ASR 管道：三层处理（ASR +翻译+精炼）有效解决了多语言视频的语音质量问题
零样本 plug-and-play：无需微调，可直接替换底层编码器（MultiCLIP/InternVideo2），实用性强
全局最大策略：对事件-描述匹配使用全局最大而非平均，有效降低 LLM 幻觉的负面影响

局限与展望¶

计算开销大：需运行多个大模型（LLM、VLM、ASR、翻译器），推理时间和成本高
LLM 幻觉风险：事件分解和字幕精炼过程中可能产生虚假信息
偏见传播：依赖模型参数化知识，可能传播模型内在偏见
仅关注文本到视频方向：未探索视频到文本检索
未来可探索如何利用事实和反事实信息进行正/负对齐

评分¶

新颖性: ⭐⭐⭐⭐ 事件分解+逆熵融合是新颖组合，将 LLM 世界知识创造性地迁移到视频检索
实验充分度: ⭐⭐⭐⭐⭐ 3 个数据集、2 个编码器、5 种语言、多种消融，极为详尽
写作质量: ⭐⭐⭐⭐ 框架清晰，图示直观，但部分公式排版略显拥挤
价值: ⭐⭐⭐⭐ 零样本方法在事件密集型视频检索上大幅提升，实用价值高