ViLL-E: Video LLM Embeddings for Retrieval¶

会议: ACL 2026
arXiv: 2604.12148
代码: 无
领域: video_understanding
关键词: 视频检索, 视频LLM, embedding生成, 对比学习, 时序定位

一句话总结¶

提出 ViLL-E，首个同时支持文本生成和 embedding 生成的 Video LLM 统一架构，通过三阶段生成-对比联合训练和自适应 KV-Former embedding head，在视频检索和时序定位上逼近专家模型，同时保持 VideoQA 竞争力。

研究背景与动机¶

领域现状 Video LLM（如 VideoLLaVA、VideoChat2）在视频问答和字幕生成等文本生成任务上表现出色，但在需要 embedding 匹配的任务（如文本到视频检索 T2V、时序定位 Moment Retrieval）上远落后于专用模型（如 QD-DETR、SigLIP、VidLA）。

现有痛点 当前视频理解需要维护两套独立模型栈：Video LLM 处理生成任务，专用 dual-encoder 处理检索任务。这不仅增加了部署复杂度，还无法在两类任务间共享表示学习。NLP 领域已有研究表明 LLM 可以通过对比微调转化为强检索模型（如 GRIT、E5），但视频领域尚无此类工作。

核心矛盾 Video LLM 的自回归生成架构天然不适合产生 dense embedding，但专用 embedding 模型又缺乏 LLM 的推理和生成能力。如何在单一模型中统一这两种能力是关键挑战。

本文目标 设计一个统一的 VideoLLM 架构，既能生成文本回答，又能产生高质量的视频/文本 embedding，在检索、定位和 QA 任务上都达到竞争性能。

切入角度 在 PaliGemma 多模态 LLM 基础上增加可学习的 embedding head，通过三阶段联合训练策略（大规模预训练→高质量预训练→多任务微调）同时优化生成和判别能力。

核心 idea 关键创新在于 EOS 触发的自适应 embedding 生成机制——模型先自回归生成可变数量的 token，这些 token 被送入 embedding head 聚合为 dense embedding。这允许模型对复杂视频"思考更久"，对简单视频快速返回。

方法详解¶

整体框架¶

ViLL-E 基于 PaliGemma-3B 多模态 LLM，包含视觉编码器、LLM 主干和新增的 embedding head。视觉 token 和输入提示使用双向注意力，自回归生成的后缀使用因果注意力。当遇到 <EOS> token 时，所有生成的 token 被收集并送入 embedding head 产生 dense embedding。训练分为三个阶段：大规模对比-生成联合预训练、高质量数据续训、多任务微调。

关键设计¶

KV-Former Embedding Head:
- 功能：将 LLM 输出的变长 token 序列聚合为固定维度的 dense embedding
- 核心思路：使用 LLM 的输出 token 作为 query，\(P\) 个可学习的 key 和 value（"pooling tokens"）作为字典，通过注意力机制自适应加权聚合。之后经 MLP 投影和均值池化得到最终 embedding
- 设计动机：相比 Q-Former 的固定输出长度，KV-Former 支持可变长度输入，能根据视频复杂度自适应调整；相比简单的 mean pooling 或 self-attention，它提供了独立于生成任务的瓶颈表示容量，同时保持参数效率
EOS 触发的自适应 embedding 生成:
- 功能：让模型根据视频复杂度自动决定生成多少中间 token 再产生 embedding
- 核心思路：模型在提取 embedding 前先自回归生成 token 直到 <EOS>，生成的 token 数量随视频复杂度自然变化。复杂视频需要更多分析步骤，简单视频可以快速收敛
- 设计动机：固定步数的 embedding 生成方法无法适应不同复杂度的视频，自适应机制在效率和表示质量之间取得了更好的平衡
三阶段生成-对比联合训练:
- 功能：逐步提升模型在生成和 embedding 任务上的能力
- 核心思路：Stage 1 在 10M Shutterstock 视频-字幕对上联合训练 next-token prediction（生成）和 CLIP 式对比损失（embedding）；Stage 2 在 200K 高质量 Claude-3-Sonnet 生成的长字幕上续训；Stage 3 在 100K 样本上进行四任务微调（QA、检索、匹配、定位）
- 设计动机：Stage 1 建立基础的视频-语言对齐；Stage 2 通过高质量详细描述弥补原始字幕过于简短的问题；Stage 3 通过多任务微调解锁下游任务能力。消融实验证实每个阶段都有显著贡献

损失函数 / 训练策略¶

四种任务对应四种损失：(1) 检索任务用 CLIP 式 in-batch contrastive loss；(2) 字幕/QA 用 next-token prediction loss；(3) 匹配任务用二分类交叉熵；(4) 时序定位用 contrastive loss + 滑动窗口 hard negative mining（IoU < 0.2 的片段作为负样本）。微调阶段使用 LoRA 保证参数效率，视觉投影模块和 embedding head 全量训练。

实验关键数据¶

主实验¶

任务/数据集	指标	ViLL-E	之前最强 VideoLLM	专家模型
ActivityNet (定位)	R@1,IoU=0.5	39.4	31.2 (LLaVA-ST)	33.2 (QD-DETR)
Charades-STA (定位)	R@1,IoU=0.5	51.5	44.8 (LLaVA-ST)	57.3 (QD-DETR)
MSR-VTT (检索)	R@1	62.5	N/A	58.0 (VidLA)
DiDeMo (检索)	R@1	61.4	N/A	61.1 (VidLA)
MSR-VTT QA	Acc	65.2	63.2 (ST-LLM)	-
Composed Retrieval (零样本)	R@1	53.1	-	47.5 (SOTA)

消融实验¶

配置	MSR QA	MSR Retr.	ANet Loc.	说明
G+C+M (完整)	65.1	62.8	39.4	三种监督信号联合
G+C (无匹配)	63.9	60.3	39.1	匹配损失对检索有帮助
G only (仅生成)	61.3	25.1	28.7	无对比学习时检索崩溃
C only (仅对比)	45.5	54.7	29.3	无生成损失时 QA 大幅下降
无预训练	55.9	49.3	32.3	预训练对检索至关重要

关键发现¶

ViLL-E 在时序定位上比专用 VideoLLM 平均提升 77%（8+ 百分点），在视频检索上超越 fine-tuned 专家模型达 4%
生成和对比训练互补：联合训练在两类任务上都优于单独训练
零样本新任务能力：组合视频检索超 SOTA 5%，长文本检索超 SOTA 2%
KV-Former 设计在所有 embedding head 变体中表现最优
两阶段检索（embedding 检索 + LLM 重排序）比单阶段 R@1 额外提升 2%

亮点与洞察¶

首次证明单一 VideoLLM 可以同时做好生成任务和 embedding 任务，打破了"两套模型栈"的范式
自适应 embedding 生成机制优雅地解决了视频复杂度差异问题
三阶段训练策略的设计合理，每个阶段各有明确目标且消融实验支撑充分
解锁了之前 VideoLLM 无法完成的新任务（组合检索、长文本检索）

局限与展望¶

基于 PaliGemma-3B，参数量较小，缺乏多轮对话能力
训练数据主要为英文，可能损失多语言能力
未与最新的通用 VideoLLM（如 Qwen2.5-VL-72B）对比，模型规模差距较大
未来可扩展到更大 backbone 并加入音频模态

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一生成+embedding的VideoLLM，KV-Former设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 8个benchmark、详细消融、多种零样本新任务验证
写作质量: ⭐⭐⭐⭐ 结构清晰，图表信息丰富
价值: ⭐⭐⭐⭐ 为视频理解领域的模型统一化提供了可行路径

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评